現在、データマイニング技術の進展により、ビッグデータの中から価値のある情報を計算により引き出し、それを利活用する高機能なサービスが提供されている。例えば、商品販売サービスにおいてロジスティック回帰分析を用いることで、ユーザーの年齢・性別・購入履歴などから、新たなキャンペーンの案内を送るか否かを決定し、無駄な案内の送付を省く技術が実用化されている。
一方で、データに含まれるプライバシー情報がクラウドサーバ管理者に漏えいするという懸念から、このようなサービスの実施を否定する動きもあるという。プライバシー情報を保護するため、データをあらかじめ完全準同型暗号技術を用いて暗号化しておき、暗号化したままデータマイニングの計算を行い、最後に結果を復元する手法が理論的には可能だが、それには膨大な時間を要するため、現実的な時間で大量のデータを処理することは困難だった。
この問題を解決するため、国立研究開発法人情報通信研究機構(NICT)セキュリティ基盤研究室は、大量のデータを暗号化したまま複数のグループに分類できるビッグデータ向け解析技術を開発した。
この技術は、NICTが開発していた準同型暗号技術SPHERE(スフィア)とロジスティック回帰分析技術を組み合わせたもの。暗号化した状態でデータを分類できるので、個人情報などの機微な情報を安全に効率よく分類することが可能になるという。
まず、ロジスティック回帰分析中に含まれる複雑な関数を単純な多項式で近似し、準同型暗号と組み合わせることで、現実的な時間で動作する方式を考案した。次に、ロジスティック回帰分析に含まれる計算をデータ加工処理と集計処理の2つの部分に分割し、データ加工をあらかじめデータ提供者側で行うことで高速化を推し進めた。
これら2点の改良と、NICT開発の準同型暗号SPHEREを組み合わせることで、大量のデータを暗号化したままでロジスティック回帰分析を行うことが可能になったという。シミュレーションによって、サーバ上で1億件のデータを30分以内で分析可能であることが確認できた。
また、UCI機械学習リポジトリにて公開されている実験用データを用い、今回開発した技術により、データを暗号化したままロジスティック回帰分析を行った結果と、SPHEREを用いずに分析した結果がほぼ一致することを確認した。
この技術を用いることで、クラウドサーバ等を用いてデータの分類を行う際、データに含まれるプライバシー情報がサーバ管理者に漏えいすることを防ぐことができるとしている。例えば、医療分野において、世界中の被験者から収集したデータを、プライバシーを保護したまま解析することが可能になる。これにより、新たな診断方法や治療法の早期かつ効率的な発見に繋がることが期待されるとしている。(編集担当:慶尾六郎)