リンク:paper.li

paper.liは、TwitterFacebookなどのソーシャルネットワーク上で共有されているリンクから記事を収集し、読みやすい新聞形式に再構成して提供するサービスです。

24時間オンラインでなくても、関心のある情報を簡単かつ効果的に収集できる画期的なサービスです。

リンクするデータ・リンクするサービス

電子情報技術産業協会JEITA)の知識情報処理技術専門委員会が主催するシンポジウム「リンクするデータ、リンクするサービス」に参加してきた。さまざまなことを知ることができて非常に良かった。

Twitterハッシュタグ #jeitalod でつぶやかれたものはこちら。

神崎正英:リンクするデータの現状と展望

「リンクするデータ、リンクするサービス」の続き。

最初の講演は、The Web KANZAKIの神崎さん。会社を設立されているとは知らなかった。

内容は Linked Open Data (LOD) の概念とデータ同士をリンクするとはどういうことなのかについての説明だった。私は、Linked DataやLinked Open Dataという名称と概念はこの講演で始めて知った。その点だけでも私にとって有意義。

WWWの提唱者であるバーナーズ=リーが Linked Dataの4原則を提唱したらしい。

2007年にW3CにLODプロジェクトが発足し、公開されているデータベースをリンクしてどんどんとネットワークが増えているとのこと。私は計算機科学分野の論文インデックスDBLP周りしか知らなかった。W3C SWEO Community Project: Linking Open Dataに図がある。

現在は、Wikipediaをベースに作っているDBpediaをハブとして、LODのネットワークが構築されているらしい。DBpediaは、英語版Wikipediaから構造可能なデータをRDFとして抽出してつくられているとのこと。

データのリンクについては以下を行うことでリンクさせる。

  1. スキーマの共有(関係データベースで言うフィールド名、XMLデータベースでいうタグ名)の統一・共通化
  2. 入力されるデータ名の統一・共有化。たとえば、「Web」、「WWW」、「ウェブ」などがデータとして入力されたとき、一つの表現に統一したり、シソーラスを用いて同じものを指し示していることがわかるようにする。
  3. IDの唯一化。ある対象に対して、データベースごとに別のIDを与えられていることがあるので、これを唯一化することで、同じ対象に対するデータであることがわかるようにする。

Linked DataではRDFが核となるフォーマットの様子。

実際の利用例としては以下のとおり

  1. Geonames:地名にURIを与えることで地名に関するデータのハブとなる
  2. MusicBrainz:音楽に関する固有名の典拠。音楽版DOI、ISBN。
  3. BBCやNYTimesが自社のWebサイトにおいて、複数のエントリーをMusicBrainzなどを利用して、リンクさせている。
  4. FacebookもOpen Graph Protocolというもの使っているとのこと。

神崎さんいわく、セマンティックWebとLinked Dataの違いは、前者は推論を行うことが主目的なので、リンクするデータ同士が本当にリンクすべきものかを慎重に考える傾向があるが、Linked Dataの場合は、まずリンクしてみよう、そこから新たな価値が生まれるという発想のもと、積極的にデータ同士をリンクするという傾向があるとのこと。

私には、Webの成功例がある分、Linked Dataの方針の方が説得力を持つように思える。

その他検索していて見つけたページ。

岡本真:世界と日本におけるGov 2.0の現在に続く。

岡本真:世界と日本におけるGov 2.0の現在

「リンクするデータ、リンクするサービス」の続き。

2番目は、Academic Resource Guideの岡本さんの講演。

Gov 2.0という概念と現状どういう取り組みがあるのかについての紹介だった。Gov 2.0の発端はオライリーの方のティムの文書より。

私も多分読んだと思うのだけど、「電子政府でしょ?Web 2.0がはやったから味をしめちゃったのね」ぐらいにしか思っていなかった。でも、今日の講演を聞いた限り、単なる電子政府の話とはどうやら違う様子。

そもそも論でいうと、Governmentは「政府」という言葉と一対一対応しないらしい。辞書の訳語だと統治という言葉が第一義にくるとのこと。なので、Gov 2.0は単なる電子政府ではないらしい。

岡本さんのまとめによると、Gov 2.0の要素は以下の3つ

  1. 透明性(Transparency)
  2. 参加(Participation)
  3. 協同(Collaboration)

そして、透明性がある程度高まった段階で、参加・協同が進むとのこと。

オバマ大統領になってから、アメリカでもGov2.0が盛り上がってきたが、オバマ大統領は、イギリスのブラウン政権の取り組みを参考にしているとのこと。ブラウン政権では、データの公開による透明性向上の取り組みや、公開したデータを用いてより良い政策実施方法の提案を求める取り組みを行っていたとのこと。WWWの方のティムは、このブラウン政権の政策に関係していたとのこと。

現在、アメリカではGov 2.0やOpen Governmentとして、動きが本格化しているとのこと。Gov 2.0 Summit, Gov 2.0 Expo(それぞれ2009、2010と開催)にワシントンの政府高官を招待しているらしい。

岡本さん曰く、Gov 2.0 SummitやExpoのスポンサーがシリコンバレー系の会社であるので、ある程度はGov 2.0への移行にともなうWeb業界の振興を目的にしていると思われるとのこと。

一方、日本ではそれほど動きがなく胎動が感じられる程度。

今回の講演でTwitterに流れている「レファ協」というキーワードが何を指し示しているのかがわかった。

海外でのGov 2.0の事例で面白かったのは、Challenge.gov 。このサービスは、行政版クラウドソーシング。クラウドソーシングのプログラム開発だと
TopCoderというのが有名らしい。

クラウドソーシング」とは、インターネットを通じて不特定多数の人々に業務をアウトソーシングすることだ。
(海外ソーシャルウェブに学ぶ成功の秘訣:いくつご存知ですか?海外のクラウドソーシング事例をまとめてみました

行政側が課題を提示し、それを解決できる能力を持っている人に解決法を提示してもらう仕組み。

行政において優秀な人材を雇用し、難問に取り組ませるというのも良いのだけれども、社会は変化し、日々新しい問題が生じている。営利企業ならば不採算事業はすぐに切って、採算がとれる事業に注力できるけれども、行政は不採算事業だけを扱うのが基本なので、従来の事業をいきなりきることはできず、慢性的に人材不足になる。

なので、このようなクラウドソーシングの仕組みは必要不可欠であると思う。また、このような仕組みは、行政からの委託業務よりも、民間シンクタンクの形成や博士号取得者の活用に有用だと思う。

岡本さんのGov 2.0の事例紹介サイト

第5条 議会は、町民自治を基礎とする町民の代表機関であることを常に自覚し、公開性、公正性、透明性、信頼性を重んじた町民に開かれた議会、町民参加を不断に推進する議会を目指して活動する。
2 議会は、議会が、議員、町長、町民等の交流と自由な討論の広場であるとの認識に立つて、前項の規定を実現するため、この条例に規定するもののほか、別に定める会議条例等の内容を継続的に見直す。
3 議会は、委員外議員の制限規定を廃止し、多様な討議を展開して委員外議員を含めた委員会活動の充実強化を図る。
4 議会は、ホームページを利用して、会議の議案・調査資料等を事前に情報提供する。
5 議長は、町民が議会の審議内容をわかりやすく傍聴できるよう、傍聴者に議案の審議に用いる資料等を提供し、傍聴者の意見を聴く機会を設けるなど、町民の傍聴意欲を高める議会運営をする。
6 議会は、会議を定刻に開催するものとし、会議を休憩する場合には、その理由・再開の時刻を傍聴者に説明する。
7 傍聴に関し必要な事項は、福島町議会への参画を奨励する規則(平成21年議会規則第1号)で定める。

講演の最後に岡本さんが、行政が持っているデータを公開したり、役に立つサービスに利用するさいの敷居として以下を挙げていた。

  1. 特定サービスの依存回避。横浜市統計GISはYahooやGoogleと連携しているという点で快挙だったらしい。
  2. 広告掲載サービスへの忌避。行政がUstreamを使わない理由の一つがこれらしい。
  3. 入札参加資格による調達方式の伝統。クラウドソーシングへの妨げの一つ。

その他、個人情報やプライヴァシー、著作権などに関わる法律の改正も必要であるとのことだった。

検索して見つけたサイト

武田英明:日本におけるLinked Dataの課題とその解決への試みへ続く。

武田英明:日本におけるLinked Dataの課題とその解決への試み

「リンクするデータ、リンクするサービス」の続き。

3番目の講演は武田さん。

講演の肝は以下のとおり(2番目はかなり意訳)。

  1. 情報とは使われなければしょうがないものなので、情報公開&共有はしなければならない
  2. 公開されている情報を使っていろいろやっているのに、自分の情報は出しませんというのはおかしい
    • 公共=官ではない。官は公共の一部を担っているだけ。
  3. 嘆いていてもしょうがないので、まず、自分達で始めてみよう!

で、実際にLODACというプロジェクトを開始し、日本で公開されている美術館・博物館情報を統合して、美術と博物についての基礎インデックスを作るというプロジェクトLODAC Museumを実施しているとのこと。LODAC Museumはeuropeanaを参考にしているとのこと(欧州文化遺産のマルチメディア図書館「Europeana」一般公開

その他、記憶に残っていることをメモ。

  • LODACで日本版DBpediaを準備中。近日公開予定とのこと
  • Linked DataではデータごとにURIを与えることが重要だが、識別IDに日本語をつかうと文字コードの問題で、各種ツールが動かないときがある(原理的にはIRIでOKのはずだけど)
  • LODAC Museumで行ったような公開されているデータの連携と複数のデータベースの統合の違いは、公開されているデータの連携を行う場合、データベースは手元になく分散していること。
    • 公開されているデータしか知ることがdけいないので、各公開組織が全部でどれほどのデータを持っているのか、データ連携を行う側では把握できない
    • どのタイミングでデータの更新や削除があるのかデータ連携を行う側では把握できない
    • データのフォーマット(スキーマ)、公開の仕方の変更について、データ連携を行う側からは止めること/強制することができない
    • 欧州は言語が似ているため、単語同士を一対一対応で翻訳できるので、メタデータを英語に統一することについてあまり問題が起こっていない様子。一方、日本語を英語に翻訳する際にやゆらぎが生じるため、同一データのリンクに失敗する可能性がある
    • 英語でメタデータを作る場合は、日本語で作る場合に比べて手間が生じる
    • 日本語のままでメタデータを作ると、非日本語圏では利用できない

江渡浩一郎:DataWikiを実現するWedataの構築と運用へ続く。

江渡浩一郎:DataWikiを実現するWedataの構築と運用

「リンクするデータ、リンクするサービス」の続き。

4番目の講演は江渡さん。qwikwebの開発者とのこと。開発系研究者的には、この発表が一番興奮した。

江渡さんは、Wikiを研究のテーマとしているとのこと。そして、AutoPagerizeの保守の流れから、Data Wikiという概念を思いつかれたとのこと。この発想に基づき提供されているのがWedata

DataWikiの話は聞いたとき「やられた!」と思わされるクールなアイデアだった。従来のWikiWikiWeb派生のWikiシステムは、文書の集積を目的としたシステム。そのため、データを管理するには向いていない。どの文字列が何のデータを表しているのかを記載しなければならず、結局、データも文書として管理しなければならなかった。そして、URIを割り振るのも文書単位であり、データ1セット単位ではない。

一方、Data Wikiはデータ単位で管理する。関係データベースの言葉を使えば、データ収集者は、テーブルのスキームを自由に定義し、各レコードは不特定多数の人に入力してもらうという仕組み。そして、1レコードごと、あるいは、1テーブルごとにURIを割り振り、自由にダウンロードして利用できるようにしている。

発表されている江渡さんは、このセミナーのテーマであるLinked Dataに、自分の発表がどう関係するのかと悩んでいられるようだったけど、Data Wikiは、データの入力インターフェースとしてLinked Dataの整備に役立つと思う。

Semantic WebやLinked Dataにおいて、その専門家で無い人にとっての一つの敷居がRDFというフォーマットにそろえなければならないということ。ある領域におけるデータをたくさん保有しているけど、RDFなんていう形式にそのデータをそろえなければならないとなったら、「めんどくさそう、じゃあ、やめた」という事態になりかねない。(話がピンと来ない人は、データ入力者が関係データベースのデータベーススキーマの設計もやらなければならないという状況を想定してくれればわかってもらえると思う。あるいは、申請書やエントリーシートを書くときに、いちいち、書類のフォーマットから準備しなければならない状況でもOK)。

Data Wikiを使えば、入力されたデータをRDF形式に変換する部分のプログラムは、データ入力者以外が作れば良いので、データ入力者はデータの入力だけを考えればよくなる。

さらに、データの収集者が必要とするデータをまとめて管理している人がいない場合もあり得る。たとえば、ある組織に属している、あるいは、ある地域に住んでいる人にとっては入手が簡単だけど、そうでない人にとっては収集にかなり手間のかかるデータ(各選挙区の立候補者の名前や公約、各専攻・コースごとの博士号取得必要条件とか)など。このような種類のデータは、Wikiのように複数人が自分の知っていることだけを入力するシステムと相性が良い。

従来も、複数人が自分の知っていることだけを入力することで実用的なデータベースを作成できるというシステムがあったが、Data Wikiはこのようなシステムの共通入力インターフェースとして利用できる。

データ収集について強制力を持つ行政や、コストの負担ができる企業は別として、データ収集についてのコストを負担できない個人や組織にとって、Data Wikiの発想は使い勝手の良いものだと思う。

一人では途方にくれるけど、100人、1000人にデータ入力を手伝ってもらえば簡単にデータ集積が行える事案について、Data Wikiをデータ集積ツールとして利用し、データを入力してくれたお礼として、役に立つサービスを提供すれば、結構よいエコシステムが構築できるのではないかと思う。たとえば、各大学の各専攻・コースにおける博士号授与に関する必要条件や博士号取得手続きは、所属している人は簡単に調べることができるけど、所属していない人がそれを知るのは難しい。でも、博士後期課程に進もうとしている人にとって、この情報はとっても重要。Data Wikiの発想で収集できるかもしれない。

パネルディスカッション

以下の布陣でパネルディスカッションが1時間半ほど行われた。

正直、最初の問題提起の部分を除き、いまいちなパネルディスカッションだった。問題提起についてメモしたものを以下に記す。

東芝の木下さんの問題提起。

  1. リンクされないデータを利用する仕組みは十分か?
    • すべてのデータにタグ付けすることは不可能
    • そこそこの精度でリンクされないデータをどう使えばよいか
  2. データを賢く使えそうな仕組みは十分か?
    • 悪意のあるデータをどう取り除くか?
  3. メタデータにおける言語の問題
    • 翻訳しようとしても1対1に対応しない場合もある。
    • 世界で使うためには英語で名づけしないといけないが、日本語で名づけした場合に大丈夫か?
  4. 社会的基盤として活用する際の障害はないのか?
    • 変えるべき法律などはないか
    • 活用すべき法律、政策的な視点での活動はいらないか?
  5. Linked Dataをどう増やしていくのか
    • Wikipediaはなぜ成功したか?
    • データが先か、アプリが先か
    • 公共が主導か、プライベートが主導か?
    • 新しいビジネスモデルがあるか?

富士通研究所の津田さんの「何かビジネスの役に立つLOD活用に向けて」という問題提起。

  • LODがないとできないアプリは?
  • セキュリティやプライバシーをちゃんと考えている?
    • データをリンクしていく先にあるのは人とのリンク
  • 外部に存在するサービスを安全に使えない(履歴から企業の行動を推測されてしまう)
  • 日本語の情報の正しさをどう保証するか?

上記の話に関してパネリストから刺さったトピックに対してコメントがあった。

  • 岡本さん
    • 都市間の競争を進めるために、特定の個人情報を公開したならば市民税の減税などをしたらよいのではないか。たとえば、図書館で何の本を借りたのかをプライバシーを守った上で利用できるならば、いろいろなことができる。
  • 武田さん
    • 技術面だけでなく、情報共有に対する意識を変える運動が必要
  • 神崎さん
    • 面白いデータ連結は人に行き着く件について:Foaf + SSL によって、個人情報の伝播を制御する。
    • リンクしてないデータの連結について:HTMLからデータ抽出して、RDFを作る。DataWikiなどでWebサイトごとのページスクレイピング正規表現を集めれば、RDF自動生成ツールなどを作れる
  • 江渡さん
    • データの質について考慮しないといけない

その後、橋田から、上記の問題はかなり議論されてきたので、連携して何かできないか(新しいプロジェクトを立ち上げられないか)を検討してみようという呼びかけがあったのだけど、ここから議論がはずまなかった。

やりとりはいくつかあったのだけど、私には刺さらなかった。そのとき、発言しようと思ってしそびれたアイデアを以下に書く。

私が思いついたLinked Dataという技術の使い道は、「中学生や高校生がアクセスできるキャリアパス検索システム」。

なぜ、必要かというと、現在の日本では、中学から高校、高校から大学、大学から就職/進学のそれぞれの段階で情報が途切れているため。中学生が高校を選ぶ段階、高校生が大学を選ぶ段階で就職までのキャリアパスが見えるように既存のデータをつなぎ、解釈の支援をするサービスがあれば、教育産業および就職産業が盛んな日本においてはお金の入るサービスになると思う。

企業にサービスや製品を提供すること(B2B)を生業としている企業が多い。でも、そのような企業があるということはサービスを受ける側になっていないと知るのは難しい。なので、企業研究をしていない人にとっては、消費者にサービスや製品を提供する(B2C)の企業だけが認識できる企業。中学生や高校生がB2Bの企業を知るのは難しい。なので、B2Bの企業で求められているような知識や技能を知るのも難しい。そうすると、高校や大学を選ぶときに何の専門を選んで良いのかわからなくなり、とりあえず、使い勝手のよい偏差値(模試の合格診断)やイメージで進学先を決める。

でも、データをリンクすれば、自分が進みたい学校や学部、学科のより具体的なイメージや就職先の企業、そしてその企業がどういう業態で何をウリとしており、業績はどうなのかまで、進学先や自分が学びたいことをキーワードとして入力するだけで、可視化できるはず。

まず、各高校は卒業生の進学先を9割近く把握しているはず。あるいは、大学は入学者の出身高校を100%把握している。CiNiiトムソン・ロイター論文DB競争的資金のデータベース、各学科のシラバスを使えば、具体的な学科のイメージをつかめる。学校基本調査のために各大学はかなりの補足率で卒業生の進路(就職先、進学先)をつかんでいる。あとは、会社四季報帝国データバンクと連携させる。こうすると、進学予定の高校を選べば、個別の会社情報までずいっとたどり着ける。会社四季報帝国データバンクは有料サービスだけど、残りは公的に公開すべき情報なので文部省令一発で情報公開させることが可能だと思う。私立大学は猛反発すると思うけど(国立は文科省に逆らえない)。

このキャリアパス検索システムは、高校、大学、企業の評価システムとして使われてしまう可能性があるけれども、これらは個人ではなく法人なのでプライヴァシー問題を考える必要はない。特に大学は、オープンデータが結構そろっている。

とりあえず、Linked Dataのうまい利用法としてオープンデータがそろっている大学評価サービス学科単位でやってみせるのがインパクトあると思う。データのリンクはインフラとして行っておき、その解釈が多様ならば、一元的な大学ランキングに陥らず悪くないと思う。