ボストン・ダイナミクス(Boston dynamics)のロボットが走ったり、ジャンプしたり、パルクールをしたりする見事な動画を見たことがある人は、ロボットは驚くほど機敏になったという印象を持っているかもしれない。実際には、このようなロボットは依然として手作業でコーディングされており、これまでに遭遇したことのない新しい障害物に対処するのには苦戦している。
しかし、ロボットに動きを教える新しい方法を使えば、人間が学習して不測の事態に適応するのと同じように、ロボットも試行錯誤を通じて新しいシナリオに対処できるようになるかもしれない。
研究者たちは、強化学習と呼ばれる人工知能(AI)手法を使い、「キャシー(Cassie)」というニックネームの二足歩行ロボットが、個々の動作について明確に訓練されることなく、さまざまな地形を400メートル走ったり、立ち幅跳びや高跳びをしたりできるようにした。強化学習は、AIが目的を遂行しようとするときにAIに報酬またはペナルティを与えることで機能する。この場合、強化学習は、新しいシナリオに直面したとき、従来のモデルのようにフリーズするのではなく、一般化して対応するようロボットに教えた。
「私たちは、ロボットの敏捷性の限界に挑戦したかったのです」。未査読のこのプロジェクトに携わったカリフォルニア大学バークレー校の博士課程生であるリー・チョンユは話す。「ハイレベルな目標は、人間が行うようなあらゆる種類のダイナミックな動作をロボットに学習させることでした」
研究チームは、シミュレーションを使ってキャシーを訓練した。このアプローチにより、ロボットが学習するのにかかる時間が数年から数週間に劇的に短縮され、さらなるファインチューニング(微調整)なしに実世界で同じスキルを実行できるようになった。
まず、キャシーを制御するニューラル・ネットワークに、その場でジャンプする、前へ歩く、転倒せずに前へ走るといった簡単なスキルをゼロから習得させる訓練を実施した。その際、人間から収集したモーションキャプチャー・データや、望ましい動きを示すアニメーションなどの動作を見せ、模倣するように促した。
第一段階が完了すると、研究チームはモデルに新しいコマンドを与え、ロボットに新しい動作スキルを使ってタスクを実行するよう促した。シミュレーション環境でロボットが新しいタスクをうまくこなせるようになると、「タスクのランダム化」と呼ばれる手法で、ロボットが訓練されたタスクを多様化させた。
これにより、予期せぬシナリオへのロボットの対応力が各段に強化された。たとえば、ロボットはリードで横に引っ張られた状態でも、安定した走行を維持することができた。「私たちは、ロボットが、これまで観察してきたことを活用し、現実の世界に素早く適応できるようにしました」とリーは言う。
キャシーは追加訓練を必要とすることなく、400メートル走を2分34秒で完走し、走り幅跳びで1.4メートルを跳んだ。
研究者たちは現在、このような手法を、カメラを搭載したロボットの訓練にどのように使えるかを研究しようとしている。キャシーの開発に貢献したが、今回のプロジェクトには関わっていないオレゴン州立大学のアラン・ファーン教授(コンピューター科学)によると、それは目隠しで動作を完了させるよりも難しいという。
「この分野にとっての次の大きなステップは、実際の作業を行い、活動を計画し、足と地面との間の相互作用だけではない方法で実際に物理的な世界と相互作用する人型ロボットです」とファーン教授は言う。