何台のロボットがあれば、ドアを開けられるだろうか。ロボットがゼロからドアの開け方を理解するには、できるだけ多くのロボットが関わった方がいい。
月曜日、ネット上に個別に掲載された3本の研究論文で、グーグル等のアルファベット系企業に所属する研究者は、個別の学習体験を共有することで、ロボットは簡単なタスクをより短い時間で学習できることを示した。
研究者は、試行錯誤を正のフィードバックと結び付ける「強化学習」と呼ばれる手法で、産業用ロボットの一団が簡単なタスクをこなせるように訓練している。当面は、ドアを開けたり物体をあちこちに動かしたりする極めて簡単なタスクが対象だが、やがては洗濯物をたたんだり、皿を洗ったりする毎日の雑用をロボットにさせる最初の一歩になる研究だ。
ロボットは、より安価で有能になっているが、予測不可能な日常のさまざまな場面で確実に動作するようにロボットをプログラムするのは、ほぼ不可能な話だ。強化学習は、ロボットが実地で学びながら、基本的には自らをプログラムすることで、この課題の解決策になる。しかし、1台のロボットに日常生活で起きるさまざまな動作を試行させるのはとても時間がかかる。初期段階にとどまるアイデアだが「クラウド・ロボティクス(cloud robotics)」とも呼ばれる学習過程の共有手法により、学習の進捗が速まりそうだ(参照 “10世界を変えるテクノロジー10:相互学習ロボット”)。
月曜日に発表された3つの論文でロボット学習の取り組みを指揮するグーグルのセルゲイ・レビン科学研究員のチームは、グループ化されたロボットに訓練を分散できる学習戦略について詳述している。
どの場合でも、分散学習に加わるロボットは、それぞれの動作結果の予測にニューラルネットワークを使う。ロボットは動作はそれぞれ若干異なるため、ロボットによって発見されるドアを開ける方法はひとつだけとは限らない。ニューラルネットワークはその後定期的にすべての学習内容を中央サーバーに送信し、クラウド上で新しいニューラルネットワークが構築され、次の訓練のためにロボットに戻されて、分散学習がくり返される。
実験には4段階ある。最初の実験の目標は、ドアノブを回してドアを開けることだ。4台のロボットは、別々のドアとドアノブの組み合わせで「ドアを開ける方法」を練習する。「ロボットは、それぞれが別の見た目のドアで訓練され、最終段階で、どのロボットも以前に見たことがないノブの付いたドアを開けられれば成功です」と執筆者(レビン研究員のほかに、グーグル子会社ディープマインドのティモシー・リリクラップ研究員、グーグルのX(極秘施設で進められている挑戦的プロジェクト)に従事するミリナル・カラクリシュナ研究員が共同で執筆)はブログの記事に書いた。
第2段階では、ロボットの学習過程は、人間がロボット・アームを動かし、するべき動作を覚え込ませたおかげで素早く進んだ。第3番段階では、カメラ映像を使って、ロボットに、どのような動作が周囲の状況を変えるのか(研究者は世界の簡単な物理的モデルを記述した)を予測する獲得能力を使って、物体の動かし方と回し方を習得した。ロボット学習を研究するブラウン大学のステファニー・テレックス助教授は、この考えにはワクワクさせられる、という。
「何かを押したときの物理的影響の予測に私がワクワクするのは、ロボットに、世界はどうなっているのかを理解させられるからです」
グーグルは明らかに、機械学習手法の応用により、人間の日常生活にロボットを介在させる分野に起きる革命を最大限に活用することに乗り気でいる。すでに一部のロボットメーカーは、強化学習で製品のプログラミングを効率化する方法を検討している。
「もちろん、ロボットが現在学べる行動は、いまだにかなり限定的です。しかし、アルゴリズムが向上し、ロボットがさらに広く普及すれば、経験を共有し共同利用するロボットの能力は、ロボットが日常生活において私たちの役に立つ手段となる可能性があります」