オープンAI(OpenAI)が2月に発表した生成モデル「Sora(ソラ)」は、人工知能(AI)によるテキスト・動画変換の限界を押し広げ、人々を驚かせた。そして今回、グーグル・ディープマインド(Deepmind)が発表したのは、AIによるテキスト・ビデオゲーム変換だ。
新モデル「Genie(ジーニー)」は、短い説明文や手書きのスケッチ、写真を、スーパーマリオブラザーズのような古典的な2Dプラットフォーマーのスタイルで、プレイ可能なビデオゲームに変換できる。ただし、過剰な期待は禁物だ。最近の一般的なゲームは1秒間に30~60フレームの画像が表示されるが、Genieが生成するゲームは1秒間に1フレームとなっている。
「すばらしい仕事です」。数年前に同様のゲーム・ジェネレーターを開発した経験がある、アルバータ大学のAI研究者のマシュー・グジアル助教授は話す。
Genieは、インターネット上で収集した何百もの2Dプラットフォーム・ゲームの3万時間分の動画で訓練された。グジアル助教授によれば、このアプローチ自体は新しいものではない。グジアル助教授のゲーム・ジェネレーターも動画から学んで抽象的なプラットフォーマーを作成した。エヌビディア(Nvidia)は映像データを使って「GameGAN」というモデルを訓練し、パックマン風のゲームを作り出すことに成功している。
ただ、これらはすべて、入力アクション、ゲーム・コントローラーのボタン押下、それに映像を使ってモデルを訓練している。例えば、マリオがジャンプしている映像フレームは「ジャンプ」アクションと紐づけられている。しかし、映像に入力アクションのタグ付けをするのは大変な作業だ。このため利用できる訓練データは限られている。
対照的に、Genieはビデオ映像だけで訓練された。Genieは8つの可能なアクションのうち、どのアクションがビデオ内のゲームキャラクターの位置を変化させるかを学習した。これにより、数え切れないほどの既存のネット動画が、潜在的な訓練データとなったのだ。
Genieは、プレイヤーのアクションに応じて、ゲームの新しいフレームをその場で生成する。ジャンプキーを押すと、Genieは現在の画像をアップデートし、ゲーム・キャラクターがジャンプしていることを示す。左キーを押すと、画像は変化してキャラクターが左に移動したことを示す。ゲームはアクションごとに進行し、プレイヤーがプレイするたびに新しいフレームがゼロから生成される。
Genieの将来のバージョンは、より高速に動作する可能性がある。「毎秒30フレームに到達することを妨げる基本的な制限はありません」。この研究チームを率いるグーグル・ディープマインドの上級研究科学者、ティム・ロックテッシェルは言う。「Genieは、現代の大規模言語モデル(LLM)と同じテクノロジーを多く使用しており、推論速度の向上が著しく進んでいます」。
Genieは2Dゲーム・プラットフォーマーによく見られるビジュアルの特異な動きを学んだ。この種のゲームの多くは、前景が背景よりも速く横に動く視差(パララックス)を利用している。Genieはしばしばこの効果を生成するゲームに加える。
Genieはディープマインドの社内研究プロジェクトであり、リリースされる予定はない。ただ、グジアル助教授によると、ディープマインドのチームは、Genieがいつかゲーム制作ツールになる可能性があると語っているという。こうしたことはまた、グジアル助教授も取り組んでいることである。「彼らが何を作るのか、非常に興味があります」。
バーチャルの遊び場
グーグル・ディープマインドの研究者たちが興味を持っているのは、ゲームの生成だけではない。Genieの担当チームは、オープンエンド学習に取り組んでいる。ここではAIコントロールのボットをバーチャル環境に落とし込み、試行錯誤しながらさまざまなタスクの解決方法を学習させる。強化学習として知られる手法だ。
2021年、ディープマインドの別のチームは、「XLand」と呼ばれるバーチャルの遊び場を開発し、そこでボットは障害物を移動させるなどの単純なタスクを解決するために協力する方法を学んだ。XLandのようなバーチャル環境は、将来のボットを実世界のシナリオと対戦させる前に、さまざまな課題に対応させるための訓練を受けさせる上で欠かせないものだ。ビデオゲームの例は、Genieがボットが遊ぶためのバーチャル・サンドボックスを作り出すせることを証明している。
同じような世界構築ツールを開発した人たちもいる。例えば、グーグル・ブレイン(Google Brain)のデイビッド・ハーと、スイスのAI研究所であるIDSIAのユルゲン・シュミッドフーバーは2018年、世界モデルと呼ばれるゲームベースのバーチャル環境でボットを訓練するツールを開発した。しかし、これもまたGenieとは異なり、学習データには入力アクションが含まれる必要があった。
ディープマインドの研究チームは、Genieの能力がロボット工学にも役立つことを実証した。Genieに実際のロボットアームがさまざまな家庭用品を操作しているビデオを見せることで、このモデルはそのアームがどのような動作ができるのか、そしてどのようにコントローラーすればいいのかを学んだ。将来のロボットは、ビデオ・チュートリアルを見ることで新しいタスクを学習できるようになるだろう。
「どのような使用事例が可能になるかを予測するのは難しいです」とロックテッシェルは語る。「Genieのようなプロジェクトが、最終的には人々に創造性を表現するための新しいツールを提供することを期待しています」。