NEC、自然な抑揚で読み上げるテキスト音声合成技術を開発

2011年06月08日 11:00

 電話の自動応答装置や車載端末の合成音声は、単調であったり不自然である場合も多いが、NECが7日に開発を発表した新しいテキスト音声合成技術によって改善されるかもしれない。

 このたび開発された技術は、大量の音声データから抽出した抑揚やリズムなどの情報を利用することで、入力された文章を自然な抑揚やリズムで読み上げるものである。大量の音声データベースの中から、前後の単語や文の長さなどをもとに、文章中の単語をどのような抑揚やリズムで読み上げるべきかを抽出、利用し、人手で作成したパターンルールと組み合わせることで、自然でバリエーションの豊かな合成音声を生成する。さらに、音声データベースから直接抽出した音声素片に加え、音声データベースに含まれない音声素片を、口や声道の動き方など、人間が音声を生成する仕組みに基づいて推定、利用。これらの素片を適切に選択して繋ぐことで、多様な抑揚やリズムを持った合成音声を生成することが可能となるという。

 同社は、この技術を電話の自動応答装置や車載端末などに利用すれば、聞き手の負担を低減することができ、さらに、従来は録音した音声を利用していた場面に適用することで、アナウンスやガイダンスに変更があった場合にも再録音が不要になる。