この犬型ロボットは、まるで仰向けのカブトムシのように足をバタつかせている。だが、もがき続けること10分後には、寝返りを打つことに成功。30分後には、生まれたての子牛のようにふらつきながらも歩き始めた。そして1時間後には、確たる足取りで研究室内を誇らしげに歩き回るまでになる。
この四足歩行ロボットが特別な理由は、コンピューター・シミュレーションで歩行方法を教えなくても、すべての動作を自力で習得したからだ。
カリフォルニア大学バークレー校のダニジャ・ハフナーらの研究チームは、人工知能(AI)の手法の一種である強化学習を利用し、現実の世界でロボットに歩き方をゼロから教えることに成功した。強化学習は望ましい振る舞いに報酬を与えることでアルゴリズムを訓練する手法である。同チームはこのアルゴリズムを使って、トレイからボールを拾い上げ別のトレイに移す動作など、他の3体のロボットの訓練にも成功している。
従来、ロボットは現実の世界で実際に動作を試す前に、コンピューター・シミュレーションで訓練されてきた。例えば、強化学習を使って自力で歩行方法を習得したキャシー(Cassie)という二足歩行のロボットも、事前にシミュレーション環境で訓練歩行を実施している。
「問題は、シミュレーターが現実の世界と比べて精密さに欠けるということです。実世界のすべての状況を捉えたシミュレーターは、現在も今後も存在し得ないでしょう」。研究の共同研究者であるハフナーは言う。ハフナーはアレハンドロ・エスコントレラとフィリップ・ウーの共同でこの研究に取り組み、現在はディープマインド(DeepMind)でインターンをしている。ハフナーは、シミュレーターによる学習を現実の世界に適応させるためには、追加のエンジニアリングが必要になると話す。
「ドリーマー(Dreamer)」とチームが名付けたこのアルゴリズムは、過去の経験を取り入れた周囲の世界モデルを構築する。さらにドリーマーによって、ロボットは現実の世界とは対照的に、コンピューター・プログラムを使った試行錯誤の計算によって、取り得る行動から発生する可能性がある事象を予測することが可能になった。これにより、単に試行錯誤するよりも迅速に学習できるようになったのだ。ロボットは歩行を学習すると、予期せぬ状況に適応できるようにさらに学習を続けることで、わざと棒に引っ掛けられて転倒しそうになっても踏みとどまれるようになる。
ロボット工学と機械学習の専門家で、ニューヨーク大学のレレル・ピント助教授(コンピューター・サイエンス)は次のように言う。「ロボットに試行錯誤を通じて学ばせること自体も難しい課題ですが、このような教え方には長時間の訓練が必要なのでさらに難易度が増します」。ピント助教授は、ドリーマーは深層強化学習と世界モデルが、非常に短い時間でロボットに新しいスキルを教えられることを示しているとも話す。
オレゴン州立大学のジョナサン・ハースト教授(ロボット工学)は、今回の研究はまだ査読済みではないものの、「強化学習が将来のロボット制御の基礎ツール」になることが明確になったと言う。
ロボット訓練にシミュレーターが不要になることは、多くの利点がある。ロボットに現実の世界でのスキルを身につけさせ、機械的な故障などに対処する方法を教えるのに、アルゴリズムが役立つ可能性があるとハフナーは言う。例えば、1本の足のモーターが故障しても、もう1本の足で歩行できるかもしれないのだ。
このアプローチは複雑で高価なシミュレーターが必要になる自律運転など、さらに高度な用途にも適用できる大きな可能性を秘めている、と話すのは、エディンバラ大学のステファノ・アルブレヒト助教授だ。新世代の強化学習アルゴリズムは、「環境がどのように機能するかを、現実世界で非常にすばやく把握」できる可能性があるという。
とはいえピント助教授は、未解決の大きな課題がまだ残っていると話す。
強化学習では、エンジニアは望ましい動作、つまり報酬を受けられる動作と、望ましくない動作を指定する必要がある。今回の場合、歩行や寝返りは良い動作、歩行しないことは良くない動作とされる。ピント助教授はこう続ける。「ロボット工学者は、ロボットに解決してほしいあらゆるタスク、(もしくは)問題の1つ1つに対して作業が必要になります」。非常に時間がかかるだけでなく、予期せぬ事態に対応する動作をプログラムするのは困難だ。
さらに、シミュレーターは精度に欠けるとはいうものの、それは世界モデルも同様だとアルブレヒト助教授は話し、次のように続ける。「世界モデルはゼロから作るため、モデルの予測は当初、未整理の雑然としたものになります」。世界モデルが充分なデータを取り込んで、精度を上げるまでには時間がかかるのだ。
ハフナーは今後、口頭による命令をロボットが理解できるようにしたいと話す。また、ロボット犬にカメラを接続し、視覚認知力も与えたいと考えている。そうすれば、部屋まで歩行で移動し、何らかの物体を探し当てて、持って帰る、というような屋内における複雑な動作もうまくできるようになるはずだ。