「個人情報を含まない形でのデータ提供」が本当にプライバシー侵害しないのかの検証が必要

このニュースはすっごくモヤモヤする

もやもやする点は

  1. JR東日本は私企業とはいえ公共交通機関。それが特定の企業にのみデータを渡すということ
  2. 「スイカ利用時に記録される乗降履歴や利用時間、定期券の区間など個人情報を含まない情報」という「個人情報保護法」でいう個人情報でないから問題ないの類似表現であること
  3. 勝手にセンシティブなデータが使われるという不快感

スイカ利用時に記録される乗降履歴や利用時間、定期券の区間など個人情報を含まない情報をJR東日本から提供を受け、日立のビッグデータ技術で解析する。10カ所の駅データ提供を1年間契約した場合の最低構成価格は500万円。
産経新聞:日立が「スイカ」履歴を元にマーケティング情報販売 ビッグデータ分析でより)

データ解析自体にお金がかかるから、どこか解析にお金を出してくれるパートナーが必要だというのはわかるのだけど、Amazonなどのように「使わない」という選択肢もあるものとは違って、必ず使うもの(だから、公共交通機関と呼ばれる)が大きな議論もなくビッグデータを使うようになるのは怖い。この流れだと、NTTグループ郵政公社、携帯電話各社なども「個人情報を含まない情報」ならどこかの企業とパートナー組んで通信記録の統計的利用をしてもおかしくないんじゃないか(たぶん、通信関連の法律で規制されているだろうけど)。

一方で、どうせビッグデータを使うならば、JR東日本が販売元となってオープンにいろいろな企業が使えるようにしてほしいところ。いろいろな観点で分析した方がデータの有用性は上がるはず。それを一企業に独占的に使わせるというのはなんか…。

とりあえず、JR東日本は「スイカ利用時に記録される乗降履歴や利用時間、定期券の区間など個人情報を含まない情報」の詳細を明らかにして、プライバシー保護の研究者やデータサイエンティスト、Linked Dataの研究者などに検討してもらい、本当にプライバシー侵害が起こりにくいことを明らかにしてから事業を始めるようにしてほしい。

情報セキュリティの分野において詳細を明らかにしないことで情報セキュリティを守る方針から、詳細を公開し、脆弱性が発見されたらすぐに修正するという方針に変換したように、ビッグデータの分析においても提供するデータの形式や内容を隠すのではなく、詳細を公開し、専門家が脆弱性を見つけに行くという方針に転換していったほうが、良いように思う。