オープンAI(OpenAI)は、人気コンピューターゲーム「マインクラフト」の7万時間にもおよぶ人間のプレイ映像を視聴させることで、過去最高のマインクラフト・プレイボットを開発した。ユーチューブのような膨大かつ未開拓の訓練データを利用することで、マインクラフトに限らずさまざまなタスクをこなす機械を訓練できる可能性がある注目の新手法だ。
この「マインクラフトAI」は、キーボードやマウスをクリックする複雑な連続した動作を実行して、木を切り倒したり、道具を作ったといったゲーム内のタスクをこなすことを学習した。ボットとして初めて、「ダイヤモンド・ツール」と呼ばれるアイテムを生成できる。これはマインクラフトの熟練のプレイヤーが、通常、高速で20分間クリックするか、およそ2万4000アクションが必要なタスクである。
この結果、ニューラル・ネットワークに人間が実行するタスクを見せて訓練する、「模倣学習」として知られる技術のブレークスルーがもたらされた。模倣学習は、ロボットアームの制御、車の運転、Webページのナビゲートといった人工知能(AI)の訓練に利用できるものだ。
ネット上には、さまざまなタスクをこなす人間の姿を映した膨大な量の映像がある。こうしたリソースを活用することで、GPT-3が大規模言語モデルに対して実施したのと同じようなことを、模倣学習に適応できるのではないかと研究者は期待している。新しいマインクラフトプレイ・ボット開発チームの一人、オープンAIのボーエン・ベイカーは、「ここ数年、インターネットの広大な空間から得られるデータで訓練された大規模モデルから優れた能力が生まれるという、GPT-3パラダイムの台頭を目の当たりにしてきました」と言う。「GPT-3パラダイムが成功している大きな理由は、人間がオンラインになったときに実行していることをモデル化しているためです」。
模倣学習における既知の問題点は、「この動作をするとこうなる」「その動作をするとああなる」といった具合に、映像のステップごとにラベル付けをしなければならないことだ。手作業によるアノテーション(ラベル付け)は大変な作業なので、データセットは小さくなりがちだ。ベイカーたちは、ネットで公開されている数百万本の映像を新しいデータセットに置き換える方法を模索していた。
ビデオ・プレトレーニング(VPT:Video Pre-Training)と呼ばれるこのアプローチでは、映像に自動的にラベル付けする別のニューラル・ネットワークを訓練させる …