富士通研究所、高速に名寄せ処理ができる技術を開発

2011年03月10日 11:00

 企業合併や企業内のITシステムの統合などに伴い、複数存在する顧客データベースを統合するニーズが高まっている。複数の顧客データベースを重複なく統合するためには、同一内容のデータであることを特定する名寄せ処理が必要だ。

 しかし、単純に一致するものを特定するだけでは表記や略し方の違い、入力ミスなどが原因で、同一の顧客であるはずのデータを見落とすこともある。顧客データベースの名寄せでは、顧客の名称や住所、電話番号といった特定できる項目の類似性を調べ、多くの項目で一致または類似した値をとるデータの組を同一顧客と判定するというが、処理に時間がかかってしまうのが現状だ。

 そこで富士通研究所は、顧客データベースの中から同一の顧客を示すデータを高速に検出する技術を開発したという。

 最大の特長としては、顧客データベース中のデータを、従来のように郵便番号といった一つの項目だけを対象に分割するのではなく、すべての項目内容を対象に他の顧客データの中から類似するデータを検索し、各項目の検索結果を総合評価するという点。これにより名寄せの見落としを軽減している。また、顧客データの表記の違いについて、すべてのケースを網羅して検索すると処理に時間がかかるため、今回はデータどうしに共通部分があり、文字の先頭や末尾、あるいは中間部分の一カ所のみが違う程度のものであれば類似であると限定したうえで、データを高速に検索できる手法を実施。名寄せ精度を保ちつつ処理速度を向上させている。

 今回開発した技術を用いることにより、従来は処理に時間がかかっていた数100万件の顧客情報の名寄せを数時間で実現することが可能になり、従来技術の約10分の1の時間で名寄せ処理を終えることができたという。

 同社は2011年度中には今回開発した技術を用いた顧客名名寄せの実用化を推進。また、顧客データ以外のテキストや画像・動画のタグなどに対象範囲を広げてデータを統合する研究開発を進め、さまざまな情報を連携させたサービスの提供につなげていくという。

 また、メトロは、顧客データの名前、住所、電話番号、郵便番号など、必須項目のデータクレンジングを行い、データの精度を高めることができる「データ磨き名人」を発売し好評を得ている。

 同製品は、全国の市外局番・市内局番の組み合わせに該当する住所(大字・町域名まで)、 郵便番号、JIS住所コード(5桁)などを収録した『JDICS』、 国内人口比率の約25%を占める、首都圏在住者約750万人の姓名を調査、抽出、編集し作成した姓名辞書 『NDICS』を利用し、より高精度なクレンジングを実現。その結果を元に名寄せ処理を行うことで、効率的な顧客データ整備が可能となっている。

 また、全国の個人・法人約3,000万件の電話番号、郵便番号、住所、姓名などを収録した電話帳データ『telRESS』を利用してマッチング。月次更新されているため、常に鮮度の高い情報でのマッチングが実現できるという。