オープンAIのスピンオフ、人間のように学ぶマルチモーダル・ロボ

An OpenAI spinoff has built an AI model that helps robots learn tasks like humans オープンAIのスピンオフ、人間のように学ぶマルチモーダル・ロボ

オープンAIの元研究者らが設立したコバリアント(Covariant)は、ロボットが人間のようにタスクを学習できる新しいAIモデル「RFM-1」を開発した。「人間のような」推論能力を持ち、テキストや画像を使った指示が可能だという。 by James O'Donnell2024.03.14

2021年の夏、オープンAI(OpenAI)はひっそりとロボット工学チームを解散した。人工知能(AI)を使ってロボットの動き方や推論方法を訓練するのに必要なデータが不足しているため、研究の進歩が妨げられている、というのがその理由だった。

オープンAIの初期研究科学者3人は、2017年にオープンAIからスピンオフした「コバリアント(Covariant)」というスタートアップ企業でその問題を解決し、大規模言語モデルの推論スキルと高度なロボットの身体的器用さを組み合わせたシステムを開発したという。

「RFM-1」と呼ばれるこの新しいAIモデルは、クレイト&バレル(Crate & Barrel)やボンプリックス(Bonprix)などの顧客企業が、世界中の倉庫で使用しているコバリアントの商品ピッキング・ロボットから収集された数年分のデータと、インターネット上のテキストや動画に基づいて訓練された。RFM-1は今後数カ月以内に、コバリアントの顧客にリリースされる予定だ。コバリアントは、このシステムが現実世界に導入されるにつれ、より機能的で効率的になることを期待している。

RFM-1は何ができるのだろうか? 先週私が出席したデモンストレーションでは、コバリアントの共同創設者であるピーター・チェンとピーテル・アッベルが、テキスト、画像、動画、ロボットの動き、測定という5つの異なる入力を使ってユーザーがモデルに指示を出す方法を見せてくれた。

たとえば、スポーツ用品が詰まった箱の画像を入力し、テニスボールのパックを拾うように指示する。その後ロボットは物体をつかんだり、テニスボールがなくなった後の箱の様子の画像を生成したり、ロボットがタスクを実行している様子を鳥瞰図で示す動画を作成したりできる。

モデルが物体を適切に掴めないと予測した場合、「うまく掴めません。何かコツはありますか?」と返してくることもある。その後の指示では、ロボットがより適切に物体を掴めるよう、アームに付いた特定の数の吸盤を使用するようアドバイスすることもできる(たとえば、吸盤が6つではなく8つにした方がいい、など)。

これは、前世代の産業用ロボットを動かしていた複雑なタスク固有のコードではなく、訓練データを使って環境に適応できるロボットにおける飛躍的な進歩を意味しているとチェンは語った。またこれは、管理職が人間の労働力の限界を気にせずに、人間の言葉で指示を出せる現場への一歩でもあるのだ。(「次のレシピを使用して、赤ピーマンのパスタの食材キットを600食分用意してください。休憩は無しで!」)

ニューヨーク大学で汎用ロボット工学とAIの研究室を運営するレレル・ピント助教授(コバリアントとは無関係)は、基本的なマルチモーダル・ロボットは研究室レベルではすでに構築・使用されているが、これほど多くのモードでコミュニケーションできるものを大規模に展開することは素晴らしい成果だと話す。

そのうえで同社が競合他社に勝つためには、ロボットが現場で使えるようにするために十分なデータを入手する必要があると指摘する。倉庫の床や荷さばき場が、新しい指示、人、物体、環境と常にやり取りするテストが行われる場所となる。

「優れたモデルを訓練できるグループは、すでに大量のロボット・データにアクセスできるか、それらのデータを生成する機能を持っているグループになるでしょう」。

コバリアントによれば、このモデルには「人間のような」推論能力があるが、限界があるという。デモンストレーションでは、コバリアントのロボットのライブフィードと、それとコミュニケーションするためのチャット・ウィンドウを見ることができた。チェンは私に、プロンプトを好きに入力していいと勧めてくれた。私がロボットに「バナナをトート2(Tote Two)に戻して」と指示すると、ロボットは自分の足跡をたどるのに苦戦し、スポンジ、次にリンゴ、そして他の多くの物体を拾い上げた後に、ようやくバナナのタスクを完了した。

「このロボットは新しい概念は理解できないのです」とチェンは説明してくれた。「しかしこれは良い例です。適切な訓練データがない場所では、まだうまく機能しない場合もあります」。

コバリアントの新しいモデルは、ロボット工学の世界に波及するパラダイムシフトを体現している。研究者たちは、物理方程式やコードなどの指示を通じて、世界がどのように機能するかを手動でロボットに教えるのではなく、人間が学習するのと同じ方法、つまり何百万回も観察することを通してロボットに教えているのだ。その結果、「任意のロボットのタスクを解決するための、非常に効果的な柔軟な頭脳として機能する可能性があるのです」とチェンは語った。

AIを活用してより機敏なロボットシステムを強化する企業の競争は、今年ますます激しくなりそうだ。今月の初め、ヒューマノイドロボットのスタートアップ企業である「フィギュアAI(Figure AI)」は、オープンAIと提携することを発表し、エヌビディアやマイクロソフトなどの大手テック企業から6億7500万ドルを調達した。また最近、ボストン・ダイナミクス(Boston dynamics) の創設者であるマーク・レイバートは、AIをロボット工学にうまく統合するための取り組みを開始している。

これらは、機械学習の進歩がロボット工学の進歩につながり始める可能性が高いことを意味している。ただし、いくつかの問題は未解決のままだ。もし大規模言語モデルが、何百万もの単語の作者に報酬を支払うことなく訓練され続けるのであれば、おそらくはロボット工学モデルもまた、報酬を支払うことなく動画で学習されることが予想される。そして言語モデルが「幻覚(ハルシネーション)」を起こし、バイアスを永続させるとしたら、ロボット工学でそれに相当するものはどのようなものになるのだろうか。

その間もコバリアントはRFM-1に継続的に学習させ、改良させることに意欲を燃やし、前進を続けるだろう。そして最終的には、モデル自身が作成した動画でロボットを訓練することを目指している。このようなメタ学習は、モデルによるエラーが複合的に重なった場合に何が起こるのかという懸念も呼び起こす。しかしより多くの訓練データに飢えているため、研究者たちはこれはほぼ避けられないことだと考えている。

「そのような訓練は現実のものになるでしょう」とアビールは話す。「半年後にまた話すときには、その話題になるでしょうね」。