ページ

2017年1月25日水曜日

オープンデータとは

総務省のサイトによると、 オープンデータの要件は
  1. 機械判読に適したデータ形式で、
  2. 二次利用が可能な利用ルールで公開されたデータ
となっています。

この機械判読に適したデータ形式について、その考え方(レベル、段階)を綺麗にまとめたのが、Tim Berners Leeさんによる5-star Open Data(和訳)となります。機械判読に適したデータ形式を★の数で表したもので、★が増えるほどより機械判読に適したデータ形式となります。



身近なデータ形式

データ形式について身近な例を挙げると、

「おーい、去年の売り上げを分析したいのだけど資料をくれ」と上司に言われた際に、

 ・回答しない。売り上げではなくて利益のデータを出す。出所が分からないデータを出す。再利用して良いか分からないデータを出す
等と言うのはそもそも論としてイケてない訳で、評価されないレベル(★は無)

 ・営業部が社内での再利用を許可している、去年の売り上げのグラフを編集できないPDFで提出できれば、★1つ
ですが、多分、次の上司の言葉は「分析したいのだけど、生データないの?」となる訳で、それに対して

 ・上記のPDFの元データを、編集可能なエクセルで提出できれば★2つ

で、人間が判読・利用するデータの場合は、大抵ここまでで話が終了するのですが、この後、★3つ、★4つ、★5つと続くのがオープンデータが「機械判読」向けのデータであるからです。


機械判読とは 

上記は、上司がデータを分析すると言う例だった訳ですが、機械=コンピュータ=プログラムがデータを分析するのが機械判読となります。この際に、全てのプログラムがエクセルを読める訳ではないことや、エクセルの利用にはライセンスが必要になること等により、アプリケーションに依存しないよりオープンなフォーマットが利用されていると、機械判読と言う点ではポイントが高いと言うことになります。

 ・それを満たすフォーマットは、例えばXMLやCSV。この段階で★3つ


CSVのように、データがある所に置いてある(data on the Web)よりは、データにURIが振られ、Webによって繋がっていて指し示すことができる(data in the Web)であればさらに使い勝手が良い訳で、

 ・それを満たすフォーマットは、例えばRDFな訳で、この段階で★4つ

最終的には、 それらのデータがリンクによって繋がり使い易くなっていれば★5つとまとめられています。

0 件のコメント:

コメントを投稿