近年、音声認識技術の発達により、カーナビゲーションやスマートフォンをはじめとするモバイル機器に多く採用されている音声入力システム。今後は家電製品への展開も検討されており、またビジネスモデルのグローバル化により、ビデオ通話やテレビ会議の機会が増加するとみられることなどから、音声入力システムに対する需要及び高性能化への要望は高まると予想されている。
こうした場面における集音技術では、目的音をより明瞭化することが必要となる。これまで指向性を持たせるために使用されていたマイクは、物理的な構造(筒状の構造)によって指向性を生成していたものの、指向性を鋭くする際にマイクサイズが大きくなることや、物理的な変更なしに指向性の制御ができない等の問題があった。
この問題に対しロームは、2つの無指向性マイクで鋭い指向性を形成すること(ビームフォーミング技術)で音声品質を向上させることができるデジタル信号処理LSIを開発。ビームフォーミング技術とは、複数のマイクの位相差を利用し、目的方向以外の音を低減させる技術のこと。これまでも2つのマイクを用いて指向性を形成する技術はあったものの、指向性を上げるためにマイク間距離を長くする必要があり、小型のポータブル機器への搭載には適しておらず、また、デジタル信号処理による遅延時間や音質の劣化も課題となっていた。しかしロームの開発したデジタル信号処理LSIは、2つのマイクを10mmという短い間隔で実装できるため、スマートフォンをはじめとするあらゆる小型機器への搭載が可能となっており、さらに、処理の最適化を行うことでビームフォーミング機能使用時の処理遅延時間を10msec以下にし、他のアプリケーションへの影響も最小限に抑えられているという。
目的音方向(0°)に対して背面方向(180)の減衰量を、従来マイクと比較して30dB以上大幅に改善し、さらに同社測定では、周囲ノイズレベル55dBSPLの環境下における音声認識精度が5%から90%に向上しているという。筆者も10月2日~6日に千葉・幕張メッセで開催された「CEATEC JAPAN2012」でデモ機を試し、クリアな音声を体感した。
他国の企業には真似できないような新しい技術が次々と生まれる訳ではない。そうした中で日本企業が技術大国として生き残るためには、既存の技術を真似の出来ないレベルにまで高める必要があるであろう。日本経済を支えるものであるだけに、そうした技術の進展にこれからも期待したい。