- 機械判読に適したデータ形式で、
- 二次利用が可能な利用ルールで公開されたデータ
この機械判読に適したデータ形式について、その考え方(レベル、段階)を綺麗にまとめたのが、Tim Berners Leeさんによる5-star Open Data(和訳)となります。機械判読に適したデータ形式を★の数で表したもので、★が増えるほどより機械判読に適したデータ形式となります。
身近なデータ形式
データ形式について身近な例を挙げると、「おーい、去年の売り上げを分析したいのだけど資料をくれ」と上司に言われた際に、
・回答しない。売り上げではなくて利益のデータを出す。出所が分からないデータを出す。再利用して良いか分からないデータを出す
等と言うのはそもそも論としてイケてない訳で、評価されないレベル(★は無)
・営業部が社内での再利用を許可している、去年の売り上げのグラフを編集できないPDFで提出できれば、★1つ
ですが、多分、次の上司の言葉は「分析したいのだけど、生データないの?」となる訳で、それに対して
・上記のPDFの元データを、編集可能なエクセルで提出できれば★2つ
で、人間が判読・利用するデータの場合は、大抵ここまでで話が終了するのですが、この後、★3つ、★4つ、★5つと続くのがオープンデータが「機械判読」向けのデータであるからです。
機械判読とは
上記は、上司がデータを分析すると言う例だった訳ですが、機械=コンピュータ=プログラムがデータを分析するのが機械判読となります。この際に、全てのプログラムがエクセルを読める訳ではないことや、エクセルの利用にはライセンスが必要になること等により、アプリケーションに依存しないよりオープンなフォーマットが利用されていると、機械判読と言う点ではポイントが高いと言うことになります。・それを満たすフォーマットは、例えばXMLやCSV。この段階で★3つ
CSVのように、データがある所に置いてある(data on the Web)よりは、データにURIが振られ、Webによって繋がっていて指し示すことができる(data in the Web)であればさらに使い勝手が良い訳で、
・それを満たすフォーマットは、例えばRDFな訳で、この段階で★4つ
最終的には、 それらのデータがリンクによって繋がり使い易くなっていれば★5つとまとめられています。