未知の環境下でロボットに何かをさせるのは難しい。研究者は通常、直面する場所が変わるごとに新しいデータを使ってロボットを訓練する必要があるが、訓練は場合によってはかなりの時間と費用を要する。
米国の研究チームは今回、追加の訓練やファインチューニング(微調整)をすることなしに、新しい環境で基本的なタスクをこなせるようにロボットに教えるための一連の人工知能(AI)モデルを開発した。「ロボット・ユーティリティ・モデル(RUM:robot utility model)」と呼ばれるこの5種類のAIモデルを使えば、5種類の別個のタスクをロボットに実行させられる。未知の環境において、ドアと引き出しを開ける、ティッシュ、バッグ、そして円筒形の物体を拾うというタスクを90%以上の成功率で実行可能だ。
ニューヨーク大学、メタ(Meta)、ロボット工学企業のハロー・ロボット(Hello Robot)の研究者から成る研究チームは、今回の成果によって、ロボットに新しいスキルをより迅速かつ容易に教えられるようになると同時に、ロボットがこれまで見られなかった領域で動作できるようになると期待している。このアプローチによって、将来的には家庭へのロボット導入がより簡単かつ低コストになるかもしれない。
「これまで研究者は、どうすれば万能のロボットを作れるかという問題にかなり注力してきた一方、ロボットが学習済みのタスクをあらゆる場所で実行させるにはどうすればいいかという問題にはあまり目を向けてきませんでした」。そう語るのは、このプロジェクトに携わったニューヨーク大学の博士課程学生、マヒ・シャフィウラだ。「私たちが考えたのは、たとえば、どんな場所にあるどんなドアでも開けられるようロボットに教える方法です」。
ロボットに新しいスキルを教えるには一般的に膨大なデータが必要だが、それを手に入れるのはかなり難しい。ロボットの訓練データは物理的に収集する必要があり、時間とコストがかかる。インターネットからかき集めた情報で訓練する大規模言語モデル(LLM)のような他の種類のAIに比べると、訓練データベースの構築と拡張ははるかに難しい。
ロボットに新しいスキルを教えるため不可欠なデータをすばやく収集するために、研究チームは過去の研究で使用したツールの新バージョンを開発した。それはゴミ拾いに使われるような安価なマジックハンドにアイフォーン(iPhone)を取り付けたものだ。
研究チームはこのツールを使い、ニューヨーク市やジャージー市の家など40通りの異なる環境において、5つのタスクそれぞれについて約1000回のデモンストレーションを記録した。一部のデータは以前の研究の一環で収集されたものだ。こうしてできた5つのデータセットを使って学習アルゴリズムを訓練し、5つのRUMモデルを作成した。
次にこれらのモデルを、車輪ユニット、高いポール、そしてiPhoneを持つ伸縮式アームを備えた「ストレッチ(Stretch)」というロボットに実装し、追加の調整なしに新しい環境でどれほどうまくタスクを実行できるかをテストした。完了率は74.4%を記録したが、研究者がiPhoneとストレッチの頭部マウントカメラの画像をオープンAIの新型LLMである「GPT-4o」モデルに渡し、タスクが成功したかどうかを尋ねたところ、成功率は90%まで向上した。GPT-4oが失敗したと回答したら、単にストレッチをリセットして再トライさせたのだ。
ロボット工学者が直面する重要な課題は、実験室環境でのモデルの訓練やテストが、現実世界で起こりうることのお手本にはならないということである。それはつまり、新しい環境において機械が確実に動作する助けになるような研究が待ち望まれているということだ。ロボットマニピュレーションを専門とする研究科学者で、この研究には参加していないモヒト・シュリダール博士はこう語る。
「さまざまな家やキッチンでロボットを評価するというのはよい方法です。なぜなら、無作為に選ばれた家の中で、ロボットが実環境において動作できるなら、それこそがロボット工学の真に目指すべき場所だからです」と同博士は言う。
この研究プロジェクトは、他のタスクを実行させるための実用ロボット向けのモデルを作るための汎用レシピとして役立つかもしれない。これによって、最小限の追加作業でロボットに新しいスキルを教えやすくなるほか、訓練を受けたロボット工学者以外の人々も将来的にはロボットを家庭に導入しやすくなる、とシャフィウラは言う。
「私が訓練してインターネット上に公開したモデルを、誰かがダウンロードしてロボットに組み込めば家の中で動かせるような世界を夢見ています」。