人工知能(AI)が原稿を作成する。近年は、生物の脳構造を参考にして考案された最先端のAIであるディープラーニング技術を画像や音声の自動生成に適用する事例が注目を集めている。しかし、画像や音声と比較して、ビジネスにおいて意味が分かる水準の文書を自動生成することは難しいとされていた。
今回、NTTデータ<9613>は、AIを用いて、アナウンサーが読み上げる気象ニュース原稿を気象電文から自動生成する実証実験を2016年9月から4カ月間にわたって実施した。
実験では、気象庁が過去に公開した気象電文と、過去にアナウンサーが読んだ気象ニュース原稿をセットにして学習する仕組みを構築し、過去4年分の気象電文から気象ニュース原稿を生成する規則を学習した。この方法で生成された気象ニュース原稿を評価した結果、日本語の文法は人が読んでも違和感の無いレベルで、意味の正しさにおいては多少の修正が必要なものの、概ね気象電文と同じ内容の文書を作成できることを確認した。
これまでニュース原稿を自動生成するには、あらかじめ用意されたテンプレート文に、単語や数値を埋め込む方法が主流だったが、この方法では大量のテンプレート文や単語の埋め込み方を人間が一つ一つ設計する必要があるため、さまざまなパターンに対して網羅的に対応するには限界があった。一方で、ディープラーニングによる文書の自動生成は多くの人手を必要としないため、設計・開発コストを低減できる可能性があるという。
具体的には、まずは気象庁が過去に公開した気象電文とアナウンサーが読んだニュース原稿をそれぞれ4年分用意し、原稿作成の規則性をディープラーニングで学習することで、ニュース原稿を生成するAIを構築した。このAIに、新たな気象庁の気象電文を読み込ませると、AIが学習した結果を基にして、新たな気象ニュース原稿を自動生成するようになりる。さらに、NTTグループのAI「corevo」の高精度の日本語解析技術を組み合わせることで、より自然な日本語の生成を実現している。
次に、自動生成された気象ニュース原稿の「日本語文法の正しさ」と「意味の正しさ」を評価しました。その結果、「日本語文法の正しさ」は、4点満点中3.86点(NTTデータ独自の採点基準)で、人が読んでも違和感が無いレベルに達し、「意味の正しさ」は、4点満点中3.07点(NTTデータ独自の採点基準)で、自動生成された気象ニュース原稿をわずかに修正することで、元の気象電文と矛盾しないレベルに達していることを確認した。
今後、NTTデータでは、気象分野におけるニュース原稿自動生成AIの商用化を目指すとともに、企業の決算発表やスポーツ等、大量のデータを伴う分野においても新たな実証実験を行い、AI記者の他分野展開を目指す方針だ。(編集担当:慶尾六郎)