ビッグデータは、従来の情報技術では扱えないほど量が大きいデータのこと。良くビッグデータの特徴として3V(Volume:大量のデータ, Variety:さまざまな種類のデータ, Velocity:発生頻度や更新頻度が高いデータ)が挙げられている。ビッグデータの定義の中には「個人に関わるデータ」というものは入っていない。
一方で、最近のビッグデータのビジネス利用に関する報道では「ビッグデータ=個人に関わるデータ(パーソナルデータ)」という扱いが多い。一番、金になるビッグデータがパーソナルデータであるわけだけど、区別して扱ってほしい。
「ビッグデータ=パーソナルデータ」という認識が増えるとパーソナルデータの扱い方に関して慎重にすべきだという意見がビッグデータ処理技術の研究開発に対しての懸念と誤解されてしまい議論が紛糾してしまう。
例えば、以下の日経新聞の記事の「ビッグデータ」部分を「顧客データおよび利用状況データ」に書き換えるとイメージがかなり変わる。
- 日本経済新聞:ビッグデータ活用で300社連携へ IIJなど中心に, 製品開発や販促で専門組織
- 「顧客データおよび利用状況データ活用で300社連携へ IIJなど中心に, 製品開発や販促で専門組織」
地理情報や気象情報などのパーソナルでないビッグデータを活用する時と、顧客データおよび利用状況データなどのパーソナルなビッグデータを活用する時では考えるべきことが異なるので、ぜひ、気をつけてほしい。
IIJはビッグデータの分析などに使うクラウド環境を構築する。富士通総研はブログなどから収集した24万人分の消費者行動データを参加企業に提供する。データセクションもツイッターなどの分析データを出す。
コンソーシアムには弁護士も参加しており、個人の情報を守る共通ルールを設ける。政府のガイドラインにも準拠する。
専門組織の名称は「データエクスチェンジ・コンソーシアム」。ビッグデータ分析のデータセクション(東京・渋谷)と、インターネットを使ったマーケティングを手掛けるデジタルインテリジェンス(同)が母体を設立した。IIJや富士通総研などが運営する。
設立後も参加企業を広く募る。業種や事業規模などの条件は付けない。
ビッグデータ活用が盛んな米国では複数の企業がデータ交換を手掛け、顧客企業の間で新たなビジネスやサービスが生まれている。
これまでは企業が自社のビッグデータを他社に売却し、利用者の反発を買ったこともあった。専門組織では顧客離れが起きない共通ルールを設け、ビッグデータを事業に生かす。
ブログやTwitterは自分で公開している情報なのでそれを収集されるのはいたしかたいないけど、それを各企業内部が保持している顧客データや利用状況データとマージされるのはさすがに気持ち悪い。ぜひ、企業間でデータをやりとりするときにはどういう風に匿名化されているのか、また、渡すデータはどういう内容なのかをオープンにして欲しいところ。
追記:NHKは区別している
いわゆるビッグデータのうち、利用価値が高いとされる個人に関わる情報、「パーソナルデータ」の利活用を考える政府の検討会が開かれ、携帯電話の位置情報などが対象データに当たると定義され、個人が特定されないよう保護していくとする事務局案が示されました。
ビッグデータのうち個人に関わる情報は、「パーソナルデータ」と呼ばれ、新たな産業の創出など企業にとって利用価値が高いとされている一方で、ほかの情報と組み合わせることで個人が特定されるおそれがあります。
「準個人情報」の例示としては、パスポート番号や免許証番号のほか、IPアドレス、携帯端末ID、顔認識データなど個人情報端末に与えられる番号で継続されて共用されるものや、遺伝子情報、指紋など生体・身体的情報、移動や購買履歴などを挙げている。個人情報に該当するか判断が困難なグレーゾーンの拡大に対応するため、これらの利用では現行法にある本人同意や通知などを求める義務を課すのは妥当ではないとしている。
まてまて!パスポート番号や免許証番号は完全に個人を特定できる情報だろう!それと移動や購買履歴を同格に扱うのはさすがにさすがでしょ。