What this futuristic Olympics video says about the state of generative AI

AI生成動画が描いた、1000年後のLAオリンピック

もし3028年に、ロサンゼルスでオリンピックが開かれたら——。地元の映像クリエイターが生成AIを利用して作成したディザー動画は、現在の生成AIモデルが得意とすることを示す一方で、欠点や限界も示している。 by James O'Donnell2024.09.10

この記事の3つのポイント

1000年後のLAオリンピックを描いたAI生成動画が公開された
AI動画制作はクリエイターに恩恵をもたらすが限界もある
AI動画の初期の応用は風景や広角の群衆シーンになる可能性がある

summarized by Claude 3

パリオリンピックが先月開催され、パラリンピックも閉幕したばかりの今、2028年に開催されるロサンゼルス夏季オリンピックなど、遠い先のことのように感じられる。しかし、バスケットボール選手のレブロン・ジェームズやシカゴ・ブルズのコンテンツ制作にも携わったことがあるスポーツ・エンターテインメント界の映像制作者ジョシュ・カーンは、地元の街でオリンピックを観戦できる期待感から、さらにその先の未来のことにまで思いを馳せている。1000年後、3028年のLAオリンピックはどのようなものになるのだろうか？

こうした想像は、人工知能（AI）による動画生成のクリエイティブの練習に最適なものである。今年、オープンAI（OpewnAI）の「ソラ（Sora）」が登場したことで、動画生成AIはメインストリームに躍り出た。「ランウェイ（Runway）」や「シンセシア（Synthesia）」などの動画生成AIモデルにプロンプト（指示テキスト）を入力すれば、ほんの数分でかなり高解像度の動画を生成できる。スピードが速く、かつ安価であり、CGIやアニメーションのような従来の制作手法に比べて技術的な障壁はほとんどない。たとえすべてのフレームが完璧でないとしても（6本指の手や物体の消失などの事実歪曲はよくあることだ）、少なくとも理論上は多くの商業的用途が存在する。広告代理店や企業、コンテンツ制作者が、このテクノロジーを使って迅速かつ安価に動画を制作する可能性があるのだ。

しばらく前からAI動画ツールで遊んでいたカーンは、未来のオリンピックがどのようなものになるか思い描き、Runwayの最新バージョンへシーンごとに新しいプロンプトを入力してこの動画を制作した。動画は1分強の長さがあり、未来のLAを空から眺めた風景が描かれている。映像の中のLAは海面が大きく上昇しており、ぎゅうぎゅう詰めの都市が海岸線のすぐ近くまで迫っている。フットボールスタジアムが超高層ビルの上に鎮座し、港の真ん中のドームの中にはビーチバレーのコートがある。

MITテクノロジーレビューに独占的に提供されたこの動画は、都市のロードマップというよりも、現時点でAIを使ってできることのデモンストレーションになっている。

「私たちはオリンピックを見ているとき、開催都市の文化的なストーリーテリングに多くの配慮が向けられていることを感じました」と、カーンは言う。「ロサンゼルスにはイマジネーションとストーリーテリングの文化があり、これまで世界の他の場所の文化も方向づけるような役割を果たしてきました。今から1000年後にオリンピックがLAに戻ってきたとして、そのときの様子がどのようなものになるかを見せられたら、クールだと思いませんか？」

何よりもこの動画は、生成テクノロジーがクリエイターにとってどれほどの恩恵になり得るかということを示している。しかし同時に、制限になっていることも示している。カーンは、各シーンの動画生成に使用したプロンプトを共有したり、それぞれを正しく撮影するために必要だったプロンプトの数を特定したりすることは拒否した。しかし、AIを使って良いコンテンツを作りたいと考えている人は、試行錯誤することを苦にしてはならないと警告する。カーンの未来的なプロジェクトで特に難しかったのは、AIモデルに対し、既成概念にとらわれない建築の発想をさせることだった。たとえば、水の上に浮かぶスタジアムは、ほとんどのAIモデルが訓練データの多くの事例で見たことがないものだ。

シーンごとに一連の新しいプロンプトが必要になるため、動画全体に連続性を植え付けることも難しい点だ。色、太陽の角度、建物の形は、動画生成モデルにとって一貫性を保つのが困難な要素である。また、この動画には人物のクローズアップ映像が一切ない。生成AIモデルはそのような映像の生成に苦戦することがまだ多いと、カーンは言う。

「これらのテクノロジーは、現在のところ大規模なものに関しては常に優れており、対照的に人間同士の本当に微妙なやりとりは苦手です」と、カーンは話す。そのような理由から、動画生成AIの映像制作への初期の応用は、風景や群衆の広角撮影になるかもしれないとカーンは想像している。

昨年、スナップ（Snap）の生成AI担当ディレクターを辞め、新たにAI動画会社のヒッグスフィールドAI（Higgsfield AI）を設立したAI動画専門家のアレックス・マシュラボフも、AI動画の現在の不具合や欠点について同じ意見を持つ。またマシュラボフは、AIを使ってセリフの多い優れたコンテンツを作るのは難しいとも指摘する。そのようなコンテンツは、微妙な表情やボディランゲージに依存することが多いためだ。

AIによる動画生成は、最終的な結果を正しく得るためにモデルに何度も繰り返し指示を出す必要があり、単純に多くの時間がかかるため、中には採用に消極的なコンテンツ制作者もいるかもしれない。

「通常、成功率は20回に1回です」とマシュラボフは話すが、50回や100回の試行が必要なことも珍しくない。

しかし、多くの目的にはそれで十分である。マシュラボフによれば、テム（Temu）のような大規模サプライヤーのAI生成動画広告が増加しているという。中国のようなモノづくりが盛んな国では、特定の商品に関するインパクトの強い動画広告を素早く作る目的で、動画生成AIへの需要が高い。たとえAIモデルが有効な広告を生成するために多くのプロンプトを必要とするとしても、本物の人間、カメラ、機材を使って撮影すれば、100倍のコストがかかるかもしれない。動画広告のような応用は、このテクノロジーが徐々に改善されていく中で、AI生成動画を大規模に使用する最初のユースケースになる可能性があると、マシュラボフは話す。

「非常に長い道のりだとは思いますが、成果を簡単に得られると私は確信しています」と、マシュラボフは言う。「私たちは、生成AIが現時点ですでに優れているジャンルを見つけ出そうとしているのです」。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。