人間の「動作」を理解する人工知能とは NTT Comが映像データから人間の動作の高精度検知に成功

2015年10月14日 10:16

 近年、人工知能(AI)の重要な要素であるDeep Learning技術が発展した結果、静止画に写っている物体や人間に対する認識精度は飛躍的に向上した。しかし、映像(特に人間の動作)など、連続した時間的変化を捉えてはじめて意味があるものに対する解析については、現在も高い精度での認識が困難な状況だ。

 一方で、監視カメラをはじめとしたネットワークカメラの普及によって、収集可能な映像データが増大しており、さらにこのようなカメラや数多のセンサー機器などがネットワークに接続されたIoTが進展の兆しを見せている。このため、映像ビッグデータの解析精度が高まれば、新たなビジネス領域を開拓できる可能性があると言われている。

 NTTコミュニケーションズ(NTT Com)はこのような状況を踏まえ、AIによる高精度な映像解析を可能にする「時系列Deep Learning」技術を開発した。10月に行った実験において、ネットワークカメラなどで撮影した人間がいる映像に対して、「しゃがんでいる」「きょろきょろしている」「ものを置いている」などの動作を検知させたところ、8割強の高い精度で正答したという。

 今回、物体や顔の認識に比べ、高い精度での解析が困難な時系列の映像認識に成功したことで、“人間の動き”を分析することが重要と考えられる防犯分野における活用をはじめ、工場での異常検知、店舗での購買行動分析、スポーツにおけるプレーの分析など、様々な領域への応用可能性が拡がったとしている。

 従来のDeep Learning技術は主に静止画を対象としており、各画像の縦横2次元のデータを元に学習を行うことで、画像に含まれる物体を認識していた。今回新技術では、これに加え学習時および検知時に時間軸方向の情報も盛り込み3次元とすることで、より精度を高めた動作の特定を可能にした。また、画像だけでなく、時系列で変化する様々なIoTデータ(温度、電圧などのセンサー情報)の高精度な解析が可能であり、汎用性に優れているという。

 主な仕組みは、映像をフレーム(コマ)ごとの静止画に分解、1フレームにおける分析対象範囲(フィルタ)内ピクセルのみではなく、近い時間軸フレームの範囲内ピクセルに対しても局所結合(畳み込み結合)を行う。各与えられたデータの各位置/各箇所を学習して特徴を抽出する方法を「畳み込み(Convolution)学習」と言う。この技術は、畳み込み学習の際に、画面内のx軸、y軸だけでなくt軸(時間)についても考慮した3次元でのDeep Leaning技術。

 今回数種類の動作を対象とした検証を実施した結果、時系列を考慮しないCNN*5による認識精度が60%弱程度であったのに対し、今回の手法を用いた場合には約85%の認識精度に達することを確認した。

 NTT Comは、「時系列Deep Learning」の技術を活用し、防犯やマーケティングなど様々な用途に応じた映像データの解析を可能とする「映像解析プラットフォームサービス」(仮称)の提供を検討していく。店舗や製造工場における不審行動の検出、2020年東京オリンピックに向けて観光客の増加が見込まれる多くの施設における防犯対策などに応用していく。

 また今後は、映像データだけでなく、多様なIoT端末から収集されたセンサーデータ、端末ログなどを統合的に分析し、より高度な解析を行うことで、ビジネス領域への応用範囲を広げていく方針だ。 (編集担当:慶尾六郎)