AI-generated images can teach robots how to act

画像生成AIがロボットに動きを指導、訓練効率化で新手法

英国の研究チームは、生成AIモデルで作成した画像に微調整を加えて、ロボットの訓練に利用するシステムを開発した。さまざまなタイプのロボットのタスクの訓練が容易になる可能性がある。 by Rhiannon Williams2024.10.10

生成AIモデルは、プロンプトに対して数秒以内に応答し、画像を生成できる。最近では、モデル自体が持つ固有のバイアスを強調することから、貴重な思い出を保存することまで、あらゆる目的で使用されている。

現在、スティーブン・ジェームズ博士がロンドンで運営するロボット・ラーニング・ラボ（Robot Learning Lab）の研究チームは、画像生成AIモデルを新たな目的で使用している。その目的とは、ロボットの訓練データを作成することだ。研究チームが開発した「ジェニマ（Genima）」と呼ばれる新たなシステムは、画像生成AIモデルのステーブル・ディフュージョン（Stable Diffusion）を微調整してロボットの動きを描画し、その画像をシミュレーションと現実世界の両方でロボットを指導するのに利用する。この研究は、11月に開催されるロボット学習学会（Conference on Robot Learning：CoRL）で発表される予定だ。

ジェニマによって、メカニカルアームから人型ロボットや無人乗用車まで、さまざまなタイプのロボットにタスクをこなす訓練を施すのが容易になる可能性がある。わずかな監視で複雑なタスクを実行できる次世代AIツールである「AIエージェント」が、スクロール操作やクリック操作をより上手に実行するのにも役立つかもしれないと、このプロジェクトに参加したロボット操作が専門の研究科学者、モヒト・シュリダール博士は言う。

「ロボット工学でできるほとんどすべてのことをするのに、画像生成システムを使用できます」と、シュリダール博士は話す。「私たちは、ステーブル・ディフュージョンでできるあらゆる驚くべきことを取り入れ、ロボット工学の問題に使えるかどうか確かめたかったのです」。

通常、ロボットにタスクをこなすように教えるには、ロボットの前に存在するものの画像でニューラル・ネットワークを訓練する。そうするとそのネットワークは、さまざまな形式でアウトプットを出力する。たとえば、前進するのに必要な座標などである。

ジェニマのアプローチは、入力と出力の両方とも、機械がより学習しやすい画像であるという点で異なっていると、インペリアル・カレッジ・ロンドンの博士課程で学ぶアイヴァン・カペリウクは言う。カペリウクはロボット学習が専門だが、この研究には関わっていない。

「それはユーザーにとっても、本当にすばらしいことです。ロボットがどこに移動し、何をするつもりか、見ることができるからです。これによって、解釈が多少しやすくなります。つまり、実際にロボットを配備した場合、そのロボットが壁を突き抜けるようなことをする前に、目で見て確認できる可能性があるのです」と、カペリウクは言う。

ジェニマは、ステーブル・ディフュージョンのパターン認識能力（たとえば、マグカップの画像で訓練されているので、マグカップがどのようなものか知っている）を利用し、モデルを一種のエージェント（意思決定システム）に変えることで機能する。

研究チームはまず、ステーブル・ディフュージョンを微調整し、ロボットセンサーから取得したデータを、ロボットのカメラで撮影した画像に重ね合わせた。

このシステムは、箱を開ける、スカーフを掛ける、ノートを手に取るといった求められる動作を、画像上に一連の色付きの球体としてレンダリングする。それらの球体がロボットに対し、1秒後に関節をどこへ動かすべきか教える。

プロセスの第2段階では、これらの球体を行動に変換する。研究チームは、同じデータでマッピングされた、「アクト（ACT）」と呼ばれる別のニューラルネットワークを使ってこれを実現した。そしてジェニマを使い、25のシミュレーションと、ロボットアームを使った9つの実世界での操作タスクを完了させた。シミュレーションと操作タスクの平均成功率は、それぞれ50％と64％だった。

この成功率は特別高いわけではないが、シュリダールらの研究チームは、ロボットのスピードと精度は向上可能であると楽観視している。研究チームは特に、ジェニマを動画生成AIモデルに適用することに関心がある。ロボットが1つの行動だけではなく、将来の一連の行動を予測するのに役立つ可能性があるからだ。

この研究は、家庭用ロボットに洗濯物を畳む、引き出しを閉めるなどの家事を訓練するのに特に役立つかもしれない。しかし、この研究の汎用的なアプローチは特定種類のマシンに限定されないとワシントン大学の博士課程で学ぶゾーイ・チェンは言う。チェンも以前にステーブル・ディフュージョンを使ってロボットの訓練データを生成したことがあるが、この研究には関わっていない。

「これは本当に刺激的な新しい方向性です」と、チェンは言う。「あらゆる種類のロボットのデータを訓練するための、一般的な方法になり得ると思います」。

人気の記事ランキング

リアノン・ウィリアムズ [Rhiannon Williams]米国版ニュース担当記者: 米国版ニュースレター「ザ・ダウンロード（The Download）」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i （アイ）」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。