人とコンピュータの論理的な対話が可能に 日立が意見を英語で提示する技術を開発

2015年07月25日 12:17

 近年、インターネットなどの情報通信技術や分析技術の発展にともない、各種センサーやPOSシステムなどから生み出されるビッグデータを解析し、有益な情報を抽出する技術が注目されている。

 また、テキストデータを活用した人と論理的な対話が可能な人工知能の開発については、テキストデータにおける事象の持つ価値や、それらの相関関係を抽出することが難しいため、これまでその実現は困難だった。今回、日立製作所<6501>は、賛否が分かれる議題に対し、大量のテキストデータを解析し、肯定的もしくは否定的な意見の根拠や理由を英語で提示する技術を開発した。

 人は賛否が分かれる質問に対して根拠や理由を述べる際に、人それぞれが持つ価値を基準としていることが推測される。そこで、日立は人やコミュニティにとって重要と考えられる健康や経済、治安などの価値に着目し、多数の議題に対する賛成と反対の意見を登録したディベートのデータベースをもとに、価値を体系的に纏めた価値体系辞書を作成した。

 具体的には、人やコミュニティが判断をくだす際の根本にある価値をリスト化するとともに、それらの価値と関係が深い単語をデータベースでの使用頻度に基づいて抽出し、価値に対してポジティブかネガティブかに振り分ける。さらに、使用頻度に応じて重要度を付与することで、価値とそれに関連する単語を体系的に整理した。例えば、「健康」という価値においては、「運動」はポジティブ、「病気」「肥満」はネガティブなどのように単語の関連性を体系的に整理した。

 次に、大量のニュース記事の中で使用されている様々な文章の中から、記載されている事象がどのような価値をもたらしているかを抽出し、その事象が価値に与えた影響がポジティブかネガティブかを示す相関関係のデータベースを作成した。例えば、「騒音が健康被害をもたらす」という記事からは、「騒音」という事象が、「健康」という価値を抑制するというネガティブな影響を抽出し、データベースで管理する。この手法により、約970万件のニュース記事から、約2億5,000万からなる相関関係データベースを作成した。

 与えられた議題に対して、この相関関係データベースと前述の価値体系辞書を活用し、大量のニュース記事の中から、議題と関連性の高い価値を複数選定します。全てのニュース記事の中から、この選定された価値のいずれかを含む文を検索することで、議題に対して根拠や理由となる可能性のあるものを抽出する。

 価値体系辞書と相関関係データベースを活用して抽出した文を、引用元の記載や数値データの有無、使われている表現などの指標を用いて数値化することで、議題に対して関連性の高いものであるかどうかを判定。根拠や理由となる可能性のある全ての文にこの処理を行い、数値を算出することで、より確実性の高い文を選出し提示することができる。

 そして、議題を与えられてから、指定した時間にある程度の回答を提示するために、主題の解析や価値の決定、記事の検索、根拠や理由を提示するまでの各プロセスにおいて、多数のアルゴリズムを非同期・分散的に実行できるアーキテクチャを構築した。

 この技術は、意見を述べる際に人やコミュニティに重要と考えられる健康や経済、治安などの価値に着目し、世の中の事象とそれぞれの価値との相関関係を用いて、大量のニュース記事から、より確実性の高い根拠や理由を抽出できる。ひとつの側面に偏ることのない根拠や理由を提示するという。人と対話できる人工知能の実現も間近かもしれない。(編集担当:慶尾六郎)