最近の人工知能(AI)搭載ロボットの多くはカメラを使って周囲の状況を把握し、新しいタスクを学習している。だが、ロボットを音声で訓練することも容易になってきており、視界が限られたタスクや環境に適応させるのに役立っている。
視覚は重要だが、音声のほうが学習に役立つ日常の作業もある。コンロの上で玉ねぎがジュージューと焼ける音を聞いてフライパンの温度が適切かどうかを判断するのはその一例だ。ただ、音声を使ったロボットの訓練は、高度な管理下にあるラボ環境でのみ実施されてきたのが現状で、その手法は他の高速のロボット教育方法に比べると遅れている。
スタンフォード大学のロボット工学・エンボディドAI研究所の研究チームが、この状況を変えようとしている。研究チームはまず、音声データを収集するため、ゴープロ(GoPro)のカメラと、バックグラウンドノイズを除去するマイクが付いたグリッパーから成るシステムを構築した。人間のデモンストレーターが、グリッパーを使ってさまざまな家事を実行し、そのデータを活用してロボットアームに自力で作業を進める方法を教えた。この研究チームの新しい訓練アルゴリズムは、ロボットが音声信号から手がかりを集めて動作の能率を上げられるようにするものだ。
「これまでロボットは、音声を消した動画を使って訓練されてきました」。スタンフォード大学博士課程の学生で、この研究の主著者であるツェイ・リウは言う。「しかし、音声には非常に有用なデータがたくさんあります」。
研究チームは、ロボットが「聞く」能力を持った場合にどれだけ機能が向上するかをテストするための4つのタスクを選定した。フライパンでベーグルをひっくり返す、ホワイトボードの字を消す、2枚の面ファスナーをくっつける、カップからサイコロ …