Webサイト上の個人情報を検出 KDDIがツールを発売

2014年02月08日 09:52

 Webサイト上の個人情報を瞬時に検出できるというツールが登場した。KDDI<9433>の子会社KDDI研究所が開発した個人情報検出ツールは、サイトに投稿された大量のコンテンツの中から個人情報に該当する箇所を瞬時に検出できるという。2月より発売予定だ。

 このツールは、テキストに含まれる個人情報を自動判定するだけでなく、検出した個人情報を伏せ字に自動変換する。このため、目視確認作業の大幅なスピードアップが期待できるという。これによりSNSや掲示板などの書き込み内容チェック作業の効率化によるコスト削減やチェック対象の規模拡大が見込めるとしている。

 対象テキストデータをアップロードするだけで、独自の判定処理により「住所」、「一般的な氏名」、「電話番号」、「メールアドレス」などの自動検出を行う。そして、Webブラウザ上に自動判定結果と伏せ字処理結果を1件ずつ表示する。1分間に1200件の投稿から個人情報を検出・変換(1秒あたり20件)、個人情報該当箇所の検出精度は約94%(氏名を含まない場合は100%)。1投稿の目視チェックに平均30.2秒かかっていた。しかし、このツールを導入することで、約1/3程度の10秒まで短縮することが可能だ。

 動作環境は、FreeBSD8.2(64bit)などのLinux系OS上で動作し、CPUは64bit対応プロセッサ、MEMは8Gbyte(1アカウントで利用の場合の推奨値)、HDDは100Gbyte以上。ブラウザはInternet Explorer 8.0が動作するWindows PC。同列会社のKDDIウェブコミュニケーションズが、オンライン問い合わせ内容のチェックに活用したところ、氏名を含む個人情報は94%の精度で検出、氏名を含まない場合は100%の精度で検出したという。

 KDDI研究所は、今回の技術は、独立行政法人情報通信研究機構からの委託研究である「インターネット上の違法・有害情報検出技術の研究開発」の研究成果の一部を活用したと発表している。この研究は、インターネット上の違法・有害なサイトから、違法・有害情報の候補抽出作業の効率化を支援するための基盤技術の研究開発を目的としたもの。ここから、前後の文脈などを解析することで、単純な文字列処理では判断できない意味の分析を可能とする技術などが応用された。

 これまで、個人情報検出ツールは、個人や企業のPCおよびサーバ内の情報から検出するというものがほとんどだった。検索対象が特定のサイトとはいえ、検索レンジが大幅に拡大している。しかし、逆に言えばいくら伏字になるといっても、個人情報が瞬時に把握できる時代になったとは。いいのか、悪いのかわからない。(編集担当:慶尾六郎)。