Researchers taught robots to run. Now they’re teaching them to walk

走るから歩くへ、強化学習AIで地道に進化する人型ロボット

二足歩行の人型ロボットはパルクールなどの派手なデモ動画が話題になることが多い。だが、実用化にはもっと基本的な動作を実行できる地道な進化が必要だ。 by Rhiannon Williams2024.04.19

ここ数年、人型ロボットがいかに機敏になり、軽々と走ったりジャンプできるようになったかを示すデモ動画を何度も目にしてきた。もうこの種のロボットの機敏さには誰も驚かなくなったし、むしろそれを当然だと思うようになってきている。

問題は、このようなすばらしいデモが、現実世界へ応用されていないことだ。人間の周囲で役に立つ安全なロボットを作るには、動きの基本がより重要だ。その結果、研究者は同様の手法を用いながらも、より控えめな目標を達成するために人型ロボットを訓練している。

オレゴン州立大学のアラン・ファーン教授（コンピューター科学）らの研究チームは、立つ、歩く、箱を拾う、ある場所から別の場所に移動するといった動作を、人型ロボット「Digit V3（ディジット V3）」に学習させることに成功した。一方、カリフォルニア大学バークレー校の別の研究者グループは、Digitが不慣れな環境でもいろいろな荷物を運びながら転倒せず、歩行する方法を学習させることに重点を置いた研究成果を発表。サイエンス・ロボティクス（Science Robotics）誌に論文として掲載された。

どちらのグループも、Digitのような二足ロボットの訓練法として急速に普及している「Sim-to-Real（シム・トゥ・リアル）強化学習」と呼ばれるAI手法を使用している。研究者はこの手法により、周囲とより安全に関わることができる、堅牢で信頼性の高い二足歩行ロボットを開発し、より迅速にロボットを訓練できるようになると考えている。

「シム・トゥ・リアル強化学習」では、AIモデルを訓練し、シミュレーション環境で何十億回も特定タスクを遂行させてから、そのモデルを利用したロボットが現実世界でタスクを遂行できるようにする。実生活ではロボットが学習するのに何年もかかることも、シミュレーションで試行錯誤を繰り返すことでわずか数日で完了する。

このニューラル・ネットワークは、ロボットが目標位置に近づいたり、目標行動を完了したりするたびに大きなポイント報酬を与える「数学的報酬関数」という手法を用いてロボットを誘導する。転倒などの望まない行動をしてしまった場合はマイナスポイントという「罰」を受けるため、ロボットは時間の経過とともにこういった動作を避けるように学習していく。

以前のプロジェクトでは、オレゴン大学の研究チームは同じ強化学習手法を用いて、キャシー（Cassie）という二足歩行ロボットに走り方を教えた。このアプローチは成功し、キャシーは屋外5キロを走った初のロボットとなった。その後も100メートルを走った二足歩行ロボットとしてギネス世界記録を樹立し、ある場所から別の場所に簡単にジャンプする能力も習得した。

「ロボットに運動動作を学習させるには、非常に狭い環境で実に複雑なスキルを身につけさせる必要があります」。カリフォルニア大学バークレー校博士課程生であるイリヤ・ラドサボヴィッチはいう。ラドサボヴィッチはDigitを訓練し、さまざまな荷物を運べるようにし、棒で突かれてもバランスを取るように訓練したという。「私たちが実行したのはその逆で、広い環境でかなり単純なスキルを身につけさせることに重点を置きました」。

人型ロボット工学の研究におけるこうした新しい動きは、速度や能力にはあまり注目せず、機械を頑丈にし、現実世界に適応させることに重点を置いている。これは、最終的に機械が現実世界で役立つために必要なことだ。人型ロボットは、重いものを運ぶ際にバランスを崩すことが多いため、作業環境で見かけることはまだあまりない。工場や倉庫でさまざまな重さの物を持ち上げるように設計されたロボットの多くが4本脚だったり、より安定性の高い大きなベースを備えていたりするのはこのためだ。だが研究者は、AI手法で人型ロボットの信頼性を高めることができれば、この状況を変えられるのではないかと考えている。

強化学習は「この種の操作スキルを訓練する、より柔軟かつ迅速な新手法」になるとファーン教授は言う。ファーンとそのチームは、今年5月に日本で開催される「ICRA」（ロボット工学とオートメーションに関する国際会議）で研究成果を発表する予定だ。

「最終目標は、棚から箱を持ち上げて別の高い棚に押し込むといった目的タスク動画を人間がロボットに見せることで、ロボットはそれ以上の指示を必要とせず、それを実行できるようになることです」（ファーン教授）。

一方、この研究には関与していないニューヨーク大学のレレル・ピント助教授（コンピューター科学）は、「ロボットにこのような行動を観察させることで、模倣したり迅速に学習できるようになれば非常に便利ですが、課題はまだ残っています」と話す。「もしそれが実現すれば、私はとても感動すると思います。難しい問題ですから」。

人気の記事ランキング

リアノン・ウィリアムズ [Rhiannon Williams]米国版ニュース担当記者: 米国版ニュースレター「ザ・ダウンロード（The Download）」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i （アイ）」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。