文字認識の分野は人工知能の活用による業務の効率化が有望な分野であるという。人工知能を活用した従来の手書き文字列の認識は、まず文字の教師サンプルを用いて、人間が認識するときに使われるとされる多数の文字パターンの特徴を学習して記憶する。次に文字列画像を、空白部分を判別することで部首とつくりのように複数領域に分割し、分割した領域が一つの文字を表す場合と、隣り合う領域を組み合わせて1つの文字になる場合に分け、それぞれが単一文字と仮定し、学習に基づく認識アルゴリズムにより、候補となる文字と信頼度を出力する。
信頼度が完全に近いほど、候補文字に対する信頼が高くなり、最終的に平均信頼度の最も高い組み合わせを順に選択していくことにより文字列の認識結果として出力する。しかし従来技術では部首やつくりなど、文字ではない画像に対しても高い信頼度を出力する場合があり、正しく文字の区切りを判別できない課題があった。また、中国語の文字列は複雑な漢字の連続であり、手書きなど1つの文字の区切りが明確でない場合は、これまで文字認識において正確に把握することが困難だった。
富士通研究開発中心有限公司(FRDC)と富士通研究所は、手書き文字列での画像認識において、信頼性の高い認識結果を出力できる人工知能モデルを開発し、中国語の手書き文字列の認識性能において、世界最高精度を達成したという。従来の文字の教師サンプルに加え、新たに開発した部首やつくりなどのパーツや、文字にならないパーツの組み合わせからなる非文字の教師サンプルによる異種深層学習モデルにより、正しい文字のみに高い信頼度が出力される技術を開発した。
異種深層学習モデルには、従来の文字の教師サンプルと、非文字の教師サンプルの二種類が含まれる。文字の教師サンプルの数と比較して、文字を分解し、さらに組み合わせで得られる非文字の教師サンプルは膨大な数になる。そのため、中国語文中で、隣り合って現れやすいパーツの組み合わせを、非文字の特徴として記憶させて重みづけを行うことで、非対称な構造の深層学習モデルに対しても、効果的に学習できる技術を開発した。
また、学習済みの異種深層学習モデルに候補領域の画像を入力すると文字と非文字それぞれの信頼度が出力され、文字となる候補領域に高い信頼度を、文字ではない候補領域に低い信頼度を出力する仕組みを設けることにより、文字列中の一つ一つの文字の区切りを効果的に判別する技術を開発した。加えてに既存技術である中国語の言語処理モデルを適用して、認識候補が正しい中国語の文字列になるかということを解析した上で、最終的な候補文章を出力させる。
今回の認識技術を適用すると、文字として存在しないパーツの組み合わせに対しては、文字としてみたときの信頼度のレベルが低くなるため、文字列の先頭から信頼度の高い区切りを順に選択していくことにより正しい認識結果が得られるという。
今後は、富士通研究所の日本語の言語処理技術と融合させることで、日本語の自由手書き文字に対しても認識精度の大きな向上が見込まれるという。2017年に、富士通のAI技術「Zinrai」への活用を目指し、順次日本向けの手書き帳票電子化などのソリューションに適用していく方針。(編集担当:慶尾六郎)