ディープマインドのAIペア、チームワークで対戦ゲームに勝利
深層学習アルゴリズムは、「スタークラフト(Starcraft)」のようなゲームで人間を負かす方法をすでに習得している。新たな研究で、チームワークの必要なゲームでも人間を打ち負かせることが示された。
ディープマインドは、5月31日にサイエンス誌に掲載された論文で、ファーストパーソン・シューティングゲーム(FPS:本人視点のシューティングゲーム)である「クウェイク III アリーナ(Quake III Arena)」の修正版を人工知能(AI)プログラムにプレイさせた様子について報告した。研究チームは、有効な戦術とそうでない戦術をAIに学ばせる強化学習の手法によって多数のエージェントを同時に訓練する「勝利のために(For the Win)」と名付けられたアルゴリズムを用いた(強化学習は、ディープマインドのAIが囲碁で勝利するのに用いたことで有名だ)。今回は、AIエージェントらを、クウェイク III アリーナの「キャプチャー・ザ・フラッグ(Capture The Flag)」モード(自陣を守りながら敵基地から旗を奪ってくる古典的なゲーム)で45万回程度訓練した。
それぞれのAIエージェントは人間のプレイヤーと同様、迷路状の建造物の一人称視点しか得られない。これらのAIエージェントを人間のプレイヤー40人と混ぜ合わせて2人構成のチームに分け、敵味方双方の立場で無作為に対戦させる。ゲームの難易度を上げるため、地図を自動的に生成し、迷路が毎回変わるようにした。
結果として、AIエージェント同士のペアで構成するチームは、一貫して他の構成のペアの成績を上回った。また、重大な場面で味方の後について敵の数を凌駕したり、新しい旗が出現したら奪えるように敵基地の近くで待機したりするなど、勝つためのチームワーク戦術を発展させた。こちらで、プレイ中のAIエージェントたちの新しい映像が見られる。
AI同士に協力させるのは難しく、興味深い研究だ(この研究自体は昨年、アーカイブ(arXiv)で初めて発表された)。協力作業には非常に多くの変数が関わっており、AIエージェントはすべて個別に学習する。今回のような仕組みにより、現実世界で、ロボット同士、あるいは人間とロボットがより効率よく協働できるようになる展望が開けた。
しかしながら、期待を膨らませすぎないようにしたい。ゲームの世界はとても狭い範囲で定義されており、同じシステムを単純に別のシナリオに移行できない可能性もある。現実世界であれば、なおのことだ。いずれにせよ、AIエージェント同士は、本当の意味で協力していたわけではない。少なくとも人間同士のような意思疎通はしていない、とジョージア工科大学のマーク・リードル准教授はニューヨーク・タイムズ紙に語っている。