近年、人工知能(AI)による画像認識精度の向上が目覚ましく、AIはすでにモノを見る「眼」を獲得しつつある。モノを掴む「手」を獲得することで、AIの活用範囲があらゆる産業や生活環境に拡大すると見込まれるが、これについては多くのロボット関連企業で苦戦を強いられている。アマゾンなどで活用される倉庫内ロボットは、商品を運ぶことは可能だが、現在、注文されたモノをピックアップすることはできない。こうしたなか、カリフォルニア大学バークレー校の研究者は、モノを掴む能力の向上に、模擬的なデータセットを活用した新しいアプローチを開発した。
同アプローチでは、既製品の3Dセンサーと標準的なロボットアームに接続された大規模ニューラルネットワークに大量の画像を登録。3次元形状と適切な掴み方の膨大なデータセットから、さまざまな形状のモノの掴み方を習得した。新しい物体が3Dセンサーの前に置かれると掴み方を判別。物体を掴めると50%以上確信できれば、ロボットは98%の確率で物体を持ち上げ、落とすことなく振り回すことができた。物体を認識できないときは、物体をつつくことでより適した掴み方を判別。99%の確率で物体を掴み、振り回すことができた。
従来、AIの訓練データ取得には膨大な時間・労力を要する。同アプローチでは、現実世界で訓練する代わりに、1000を超える模擬的なデータセットを使っている。物理的な試行による訓練データの取得には数カ月の時間を要するのに対して、模擬的なデータセットでは、多層ニューラルネットワークによる十分な訓練データが1日程度で生成できるとのこと。
日本のAIベンチャー、プリファード・ネットワークス(PFN)が健闘していることでも知られる、ロボットのピッキング能力を争う年次世界大会「アマゾンピッキングチャレンジ」では、2016年の優勝チーム、チーム・デルフト(オランダ)が最初のピックまでにかかった時間が30秒(4位のPFNで1分7秒)となっている。人間が難なく行っている「掴む」という行為には、モノの認識から反作用を計算したアームの力の入れ具合まで、とても複雑な処理を要する。大会に向けてPFNは、2ケ月半の準備期間のあいだにロボットに46種類の物体を認識させた。その際の画像データ取得及び、判別方法の習得には多大な労力を要している。
今回開発された新しい学習アプローチが、工場や倉庫内のロボットの能力を格段に高め、家庭や病院などの環境へのAI・ロボットの進出に寄与することに期待する。(編集担当:久保田雄城)