ロボットは、特定のタスクを得意とする。例えば、ロボットは物体を持ち上げて移動するのが得意で、また最近では料理も上手くなっている。
しかし、研究室の環境ではこのようなタスクを簡単にこなせるかもしれないが、利用可能なデータがほとんどない初めての環境でロボットにタスクを実行させることは、本当に難しいことなのだ。
現在、「OKロボット(OK-Robot)」と呼ばれる新しいシステムにより、ロボットがこれまでに経験したことのない環境で、物体を拾い上げ、移動できるよう訓練できるようになった。追加のコストのかかる複雑な訓練を必要としないため、急速に改善するAIモデルと実際のロボットの機能とのギャップを埋められるかもしれないアプローチだ。
このシステムを開発するために、ニューヨーク大学とメタの研究グループは、車輪付きユニットに背の高い高いポール、そして格納式アームで構成されるハロー・ロボット(Hello Robot)製の市販ロボット「ストレッチ(Stretch)」を、5つの家の合計10部屋でテストした。
研究チームはロボットが部屋にいる間、スマートフォンのライダー(LIDAR:レーザーによる画像検出・測距)システムを使用して3Dビデオを撮影し、ロボットと共有しているアイフォーン(iPhone)アプリの「Record3D(レコード3D)」を使って周囲をスキャンした。
その後、OKロボット・システムは、映像のフレーム上でオープンソースAIの物体検出モデルを実行した。他のオープンソースのモデルと組み合わせることで、ロボットはおもちゃのドラゴン、歯磨き粉のチューブ、トランプのパック、椅子、テーブル、ゴミ箱を含む、その部屋にある物体を識別できるようになった。
次に研究チームは、ロボットに特定の物体を拾い上げて別の場所に移動するよう指示した。ロボットの挟み込みアームは、58.5%のケースで物体を拾って移動させることに成功した。あまり散らかっていない部屋では、成功率が82%にまで上昇した(この研究は、まだ学術誌の査読を受けていない)。
最近のAIブームにより、言語とコンピューター・ビジョンの機能が大幅に進歩し、ロボット研究者は3年前にはなかったオープンソースのAIモデルやツールにアクセスできるようになった、とグーグル・ディープマインド(Google DeepMind)のマティアス・ミンデラー上級コンピューター・ビジョン研究員は話している(同上級研究員はこのプロジェクトに関与していない)。
「既製のモデルに完全に依存するのはかなり珍しいことです。そして、それを機能させるのは非常に素晴らしいことだと思います」(ミンデラー上級研究員)。
「私たちは機械学習の革命を目の当たりにし、研究室だけでなく実世界でも機能するモデルを作成できるようになったのです」とミンデラー上級研究員は付け加えた。「実際の物理環境で本当にこれが機能すると確認することは、非常に有益な情報になります」。
今回の研究チームのシステムは、特定のプロジェクトに合わせて微調整されていないモデルを使用していたため、ロボットは探すように指示された物体を見つけられなかった場合、解決策を見つけようとするのではなく、単にその場で止まってしまった。この重大な制限は、ロボットが整然とした環境で成果を出す可能性が高い理由の1つである。物体が少ないということは、混乱の可能性が少なく、ナビゲーションのためのスペースがより明確であることを意味しているためだ。
既製のオープンソース・モデルを使用することは幸運でもあり、また呪いでもあったと、このプロジェクトを共同主導したニューヨーク大学のレレル・ピント助教(コンピューター・サイエンス)は話している。
「長所は、ロボットには環境内で追加の訓練データを与える必要がなく、そのままで機能するという点です」とピント助教は話す。「そして欠点は、ロボットは物体を拾い上げて別の場所に落とすことしかできないことです。ロボットに引き出しを開けるように指示できません。なぜならロボットは、物体を拾い上げる、それを別の場所に落とす、という2つのことしか知らないためです」 。
そしてOKロボットと音声認識モデルを組み合わせることで、研究チームはロボットに話しかけるだけで指示を与えられるようになり、すぐに利用できるデータセットを使った実験が容易になる、と今回の研究を共同で主導したニューヨーク大学の博士課程学生、マヒ・シャフィウラは述べている。
「(ロボット)コミュニティには、家事は難しい、ロボットも難しい、そして家事とロボットを組み合わせることは全く不可能だという意見がかなり広く蔓延しています」とシャフィウラは話す。「多くの人が家庭用ロボットの実現が可能だと信じ始めれば、この分野ではさらに多くの仕事が生まれると考えています」。