江渡浩一郎:DataWikiを実現するWedataの構築と運用

「リンクするデータ、リンクするサービス」の続き。

4番目の講演は江渡さん。qwikwebの開発者とのこと。開発系研究者的には、この発表が一番興奮した。

江渡さんは、Wikiを研究のテーマとしているとのこと。そして、AutoPagerizeの保守の流れから、Data Wikiという概念を思いつかれたとのこと。この発想に基づき提供されているのがWedata

DataWikiの話は聞いたとき「やられた!」と思わされるクールなアイデアだった。従来のWikiWikiWeb派生のWikiシステムは、文書の集積を目的としたシステム。そのため、データを管理するには向いていない。どの文字列が何のデータを表しているのかを記載しなければならず、結局、データも文書として管理しなければならなかった。そして、URIを割り振るのも文書単位であり、データ1セット単位ではない。

一方、Data Wikiはデータ単位で管理する。関係データベースの言葉を使えば、データ収集者は、テーブルのスキームを自由に定義し、各レコードは不特定多数の人に入力してもらうという仕組み。そして、1レコードごと、あるいは、1テーブルごとにURIを割り振り、自由にダウンロードして利用できるようにしている。

発表されている江渡さんは、このセミナーのテーマであるLinked Dataに、自分の発表がどう関係するのかと悩んでいられるようだったけど、Data Wikiは、データの入力インターフェースとしてLinked Dataの整備に役立つと思う。

Semantic WebやLinked Dataにおいて、その専門家で無い人にとっての一つの敷居がRDFというフォーマットにそろえなければならないということ。ある領域におけるデータをたくさん保有しているけど、RDFなんていう形式にそのデータをそろえなければならないとなったら、「めんどくさそう、じゃあ、やめた」という事態になりかねない。(話がピンと来ない人は、データ入力者が関係データベースのデータベーススキーマの設計もやらなければならないという状況を想定してくれればわかってもらえると思う。あるいは、申請書やエントリーシートを書くときに、いちいち、書類のフォーマットから準備しなければならない状況でもOK)。

Data Wikiを使えば、入力されたデータをRDF形式に変換する部分のプログラムは、データ入力者以外が作れば良いので、データ入力者はデータの入力だけを考えればよくなる。

さらに、データの収集者が必要とするデータをまとめて管理している人がいない場合もあり得る。たとえば、ある組織に属している、あるいは、ある地域に住んでいる人にとっては入手が簡単だけど、そうでない人にとっては収集にかなり手間のかかるデータ(各選挙区の立候補者の名前や公約、各専攻・コースごとの博士号取得必要条件とか)など。このような種類のデータは、Wikiのように複数人が自分の知っていることだけを入力するシステムと相性が良い。

従来も、複数人が自分の知っていることだけを入力することで実用的なデータベースを作成できるというシステムがあったが、Data Wikiはこのようなシステムの共通入力インターフェースとして利用できる。

データ収集について強制力を持つ行政や、コストの負担ができる企業は別として、データ収集についてのコストを負担できない個人や組織にとって、Data Wikiの発想は使い勝手の良いものだと思う。

一人では途方にくれるけど、100人、1000人にデータ入力を手伝ってもらえば簡単にデータ集積が行える事案について、Data Wikiをデータ集積ツールとして利用し、データを入力してくれたお礼として、役に立つサービスを提供すれば、結構よいエコシステムが構築できるのではないかと思う。たとえば、各大学の各専攻・コースにおける博士号授与に関する必要条件や博士号取得手続きは、所属している人は簡単に調べることができるけど、所属していない人がそれを知るのは難しい。でも、博士後期課程に進もうとしている人にとって、この情報はとっても重要。Data Wikiの発想で収集できるかもしれない。