Welcome to the new surreal: how AI-generated video is changing film

短編映画を独占公開：生成AIは映像制作をどう変えるか？

オープンAIの画像生成モデル「DALL-E」を使って制作された12分間の短編映画を本誌独占公開。生成AIによって映像制作はどう変わるのか、その一端をお見せしよう。 by Will Douglas Heaven2023.06.06

『ザ・フロスト（The Frost）』は、不気味で不穏な雰囲気を最初の数ショットで印象付ける。氷に覆われた広大な山々、軍用テントの仮設キャンプ、火を囲んで身を寄せる人々、吠える犬たち。見慣れたもののはずなのに、大きくなっていく不安の種を植え付けるには十分な異様さだ。何かが変なのだ。

「尻尾をとってくれ」と誰かが言う。カットが変わり、焚き火のそばでピンク色のジャーキーをかじる男のアップが映される。グロテスクだ。唇の動きが少しおかしい。一瞬、まるで凍りついた自分の舌を噛んでいるように見える。

AI映画制作の不吉な世界へようこそ。「私たちは写真のような正確さを求める欲望と闘うのをやめ、DALL-E（ダリー）の奇妙さを受け入れることにしました」。こう話すのは、ザ・フロストを制作したデトロイトの映像制作会社、ウェイマーク（Waymark）のスティーブン・パーカーだ。

ザ・フロストは、すべてのショットが画像生成AIによって作り出された、12分間の短編映画である。まだ馴染みのないこの新ジャンルの中でも、きわめて印象的な（そして奇妙な）作品の1つだ。以下でこの映画を視聴できる。MITテクノロジーレビューの独占公開だ。

ウェイマークは『ザ・フロスト』の制作にあたり、同社のエグゼクティブ・プロデューサーで本作の監督を務めたジョシュ・ルービンの脚本をオープンAI（OpenAI）の画像生成モデル「DALL-E 2」に入力した。満足のいく形で画像が作られるように何度か試行錯誤を重ねた後、DALL-E 2を使用してすべてのショットが生成された。そして次に、静止画像に動きを加えれるAIツール「D-ID」を使ってそれらのショットがアニメーション化され、風にはためくテントや唇の動きが作られた。

「DALL-Eが返してきたものから、世界を作り上げました」と、ルービンは言う。「奇妙な美的感覚ですが、私たちは素直に受け入れました。それがこの映画のスタイルになりました」。

「間違いなく、これまで見てきた生成AI（ジェネレーティブAI）映画の中で、スタイルに一貫性が感じられる最初の作品です」。クリエイティブ・テクノロジーを専門とするコンサルタント会社、ベル&ホイッスル（Bell & Whistle）の共同創業者で、独立映像制作者のスーキ・メダウイはこう話す。「静止画を生成し、それを操って動きをつけることで、コラージュのような楽しい雰囲気が出ています」。

ザ・フロストは、最近数カ月の間にリリースされたさまざまな生成AIツールを使って作られた、短編映画の新作である。現時点で最高の動画生成モデルでも、まだ数秒間の映像しか作ることができない。そのため、現在の生成AI作品には、さまざまな種類のスタイルや手法が使われている。たとえば、ザ・フロストのように静止画像を絵コンテのように連続して並べたものや、数秒間の複数の動画クリップをマッシュアップしたものなどだ。

映像制作用AIツールの開発企業ランウェイ（Runway）は今年2月から3月にかけて、ニューヨークでAI映画祭を開催した。そのハイライトの1つが、プラスチックに包まれた奇妙な海の生き物たちが連続して目まぐるしく登場する、ラエン・サンチェスによる異世界的な作品『PLSTC』だ。それらの生き物たちは、画像生成モデルのミッドジャーニー（Midjourney）によって生成された。また、ジェイク・オレソンによる夢の中のような『ギヴン・アゲイン（Given Again）』は、2Dの写真を3Dのバーチャル・オブジェクトに変える、NeRF（ニューラル放射輝度フィールド）と呼ばれる技術を使用している。そして、サム・ロートンによる自身の古い家族写真のスライドショー『エキスパンデッド・チャイルドフッド（Expanded Childhood）』の超現実的なノスタルジーは、DALL-E 2に写真に写っている外側の部分を生成させ、ぼんやりとしか覚えていない古い写真の細部をいじくりまわすことで生み出されている。

ロートンはそれらの画像を父親に見せ、反応を映画の中に記録している。「何か変だな。あれが何なのかわからない。私が覚えていないだけなのかな？」

迅速かつ安価

新しいテクノロジーを最初に試すのは、たいていアーティストたちである。しかし、AI生成動画の短期的な未来は、広告業界によって形作られている。ウェイマークは、生成AIをどのように自社製品へ組み込むことができるか探るために、ザ・フロストを制作した。ウェイマークは、迅速かつ安価にCMを作る方法を探している企業向けに、動画作成ツールを開発している。ウェイマークのほかにも、ソフトキューブ（Softcube）やヴェディアAI（Vedia AI）など、いくつかのスタートアップ企業が、わずか数回のクリックだけで顧客がオーダーメイドの動画広告を作成できるサービスを提供している。

今年始めにリリースされたウェイマークの最新技術は、大規模言語モデルや画像認識、音声合成など、複数の異なるAIテクノロジーを組み合わせて、動画広告をその場で生成するものだ。ウェイマークは、AI生成ツールを使わずに制作された過去のCMの大規模なデータセットも利用している。「当社は何十万本もの動画を持っています」と、CEOのアレックス・パースキースターンは言う。「その中からベストなものを抜き出し、良い動画とはどのようなものか、訓練しました」。

ウェイマークのツールは、月額25ドルからのサブスクリプション・サービスの一部として提供されている。サービスを利用するには、ユーザーは自社のWebサイトのアドレスやソーシャルメディア・アカウントを登録する。ウェイマークはそこからテキストと画像を収集し、収集したデータを使ってオープンAIのGPT-3に台本を書かせる。この台本を合成音声で読み上げ、事業内容に合った厳選された画像に乗せることで、CMを作り出す。洗練された1分程度のCMを、数秒間で作成することが可能だ。ユーザーは、希望に応じて台本を調整したり、画像を編集したり、別の音声を選んだりすることで、出来上がったCMに手を加えることができる。ウェイマークによれば、これまでに10万人以上がこのツールを利用したという。

問題は、すべての企業がデータの情報源となるWebサイトや画像を持っているわけではないことだと、パーカーは言う。「会計士やセラピストは、アセットとなるものをまったく持っていないかもしれません」。

ウェイマークの次のアイデアは、まだ何も持っていない、あるいは持っているものを使いたくない企業向けに、生成AIを使って画像や動画を作成することだ。「ザ・フロストを制作した背景には、そのような目的があります」と、パーカーは言う。「世界観や雰囲気を作り出すのです」。

確かに、ザ・フロストには雰囲気がある。しかし、低品質でもある。「決してまだ完璧なメディアではありません」と、ルービンは言う。「顔に浮かぶ感情的な反応など、ある種のものをDALL-Eから得るのには、少し苦労しました。しかし、それ以外は、私たちを喜ばせるものでした。『すばらしい。これは目の前で起きている魔法だ』と思ったものです」。

上手くいくこともあれば、いかないこともあるこのやり方は、テクノロジーの向上に伴って改善されるだろう。ウェイマークがザ・フロストの制作に使用したDALL-E 2がリリースされたのは、わずか1年前だ。短いクリップを生成する動画生成ツールに至っては、リリースからまだ数カ月しか経っていない。

このテクノロジーの最も画期的な点は、新しいショットが欲しいときにいつでも生成できることだと、ルービンは言う。「15分ほど試行錯誤すれば、シーケンスに完璧にフィットする、希望のショットが得られます」。ルービンは映画を編集しているときに、山腹に置かれたブーツのアップなど、特定のショットが必要になったことを覚えている。DALL-Eを使ってそのショットを生成することができた。「驚くような体験でした。そのときから、映像制作者として本当に目を見張るような体験が始まりました」。

ロンドンを拠点に短編動画を制作しているスタートアップ企業、プライベート・アイランド（Private Island）の共同創設者、クリス・ボイルも、画像生成モデルを昨年初めて体験したときの第一印象を思い出す。「『これはすべてを変えることになる』と、めまいがするような瞬間でした」。

ボイルらのチームはこれまで、バドライト、ナイキ、ウーバー、テリーズ・チョコレートなど、さまざまなグローバル・ブランドのCMや、『コール・オブ・デューティ』などの大ヒットタイトル向けに、短いゲーム内動画を制作してきた。

プライベート・アイランドは、数年前からポストプロダクション（撮影後の編集作業）でAIツールを使用してきたが、パンデミック中にさらに力を入れるようになった。「ロックダウン中は非常に忙しかったのですが、以前と同じように撮影することができませんでした。そのため、機械学習をさらに大きく取り入れ始めたのです」（ボイル）。

プライベート・アイランドは、NeRFを使って2D画像から3Dのシーンを作成したり、モーションキャプチャーのデータを一から集めるのではなく、機械学習を用いて既存の映像からリッピングしたりするなど、ポストプロダクションやビジュアルエフェクトを容易にするまざまなテクノロジーを採用した。

それでも、生成AIは新しい領域である。数カ月前、プライベート・アイランドは、自社のインスタグラム・アカウントにビールのパロディCMを投稿した。ランウェイの動画生成モデル「Gen-2」と、スタビリティAIの画像生成モデル「ステーブル・ディフュージョン（Stable Diffusion）」を使って制作したものだった。動画はじわじわと口コミでヒットした。『シンセティック・サマー（Synthetic Summer）』と名付けられたこの動画で描かれているのは、脳天気な若者たちが太陽の光の下でのんびりとドリンクを飲む、典型的な裏庭パーティーの一場面である。ただし、登場人物たちの多くは口の代わりに穴がぽっかりと開いていることと、ビールを飲むと缶が頭の中に沈み込むこと、そして裏庭が燃えていることを除けば、だが。

「最初に見たときは、どこででも見られる、ありふれたアメリカ的な光景だと思うでしょう。ですが、そのうち、『うっ、みんなの顔が逆さまじゃないか』とおかしなことに感じるのです」（ボイル）。

ボイルは、「私たちは、メディア（映像、音声、画像など）そのものを使って物語を語る遊びが好きです」と言う。「シンセティック・サマーは、その優れた例だと思います。メディア自体がとても不気味だからです。AIに対する私たちの不安を視覚化したような作品です」。

強みを生かす

これは映像制作の新時代の幕開けなのだろうか？現在のツールでは、表現できることに限りがある。ザ・フロストとシンセティック・サマーは、どちらも制作に使用したテクノロジーの強みを活かしている。

ザ・フロストは、DALL-E 2の不気味な美的感覚と上手く適合している。シンセティック・サマーには多くの短いカットがあるが、これは、Gen-2のような動画生成ツールは一度に数秒の動画しか生成できず、それをつなぎ合わせる必要があるためだ。あらゆるものが混沌としているパーティのシーンには、その仕組みが上手く機能していると、ボイルは言う。プライベート・アイランドは、武術映画の制作も検討した。武術もまた、短いカットが適したテーマだ。

このことは、そのうちミュージックビデオやCMで、AI生成動画が使われる始めることを意味するのかもしれない。しかし、それ以上のことはよく分からない。実験的なアーティストや一部のブランドを除けば、AI生成動画を使っている人はまだあまりいないと、独立映像制作者のメダウイは言う。

常に流動的な状態も、潜在的な顧客を当惑させている。「興味を持っていそうな多くの企業と話をしましたが、生成AIテクノロジーは非常に速いスピードで変化しているため、プロジェクトにリソースを投入することをためらっているようです」と、メダウイは言う。ボイルによれば、ステーブル・ディフュージョンのようなモデルの訓練に使用されたデータセットに含まれる画像の著作権をめぐる訴訟が続いていることも、企業に警戒心を抱かせているという。

この先どこへ向かうのかは、誰にもはっきりとは分からないと、メダウイは言う。「多くの仮説がダーツを投げるように次々と提唱されていますが、その背景にある微妙な意味合いまで考察されているものはありません」。

一方、映像制作者たちは、それらの新たなツールを使って実験を続けている。友人のジェイク・オルセオンの作品に触発されたメダウイは、生成AIツールを使って、オピオイドに対する偏見をなくす短編ドキュメンタリーを制作している。

ウェイマークはザ・フロストの続編制作を計画しているが、DALL-E 2にはこだわっていない。「どちらかというと、『乞うご期待』といった感じでしょうね」と、パースキースターンは言う。「次回作を作るときはおそらく新しい技術を使い、何ができるのか確かめることになるでしょう」。

プライベート・アイランドは、他の映画でも実験をしている。これまでに、チャットGPTが書いた脚本と、ステーブル・ディフュージョンが作成した画像を使った動画を制作した。現在は、ステーブル・ディフュージョンがデザインした衣装を現実の出演者が着る、ハイブリッドな映画に取り組んでいる。

「私たちはAIの美にとても夢中です」と、ボイルは言う。それは、これまでの絵文字やグリッチエフェクトのようなものに閉じ込められてきたデジタル文化の支配的なイメージからの変化なのだという。「新たな美がどこから生まれてくるのか、とても楽しみです。生成AIは、いわば、私たちを映す壊れた鏡のようなものなのです」。

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。