生成AIが新章突入、Stable Diffusion共同開発元が動画版を発表
画像生成AI「ステーブル・ディフュージョン」の最初のバージョンを開発した英国のスタートアップ企業が、映像を生成するAIを発表した。既存の映像にテキストや画像を指定すると、新しい映像に変換できるという。 by Will Douglas Heaven2023.02.08
生成AI(ジェネレーティブAI)のスタートアップ企業であるランウェイ(Runway)は、テキスト入力や参照画像で指定した任意のスタイルを適用して、既存の映像を新しい映像に変換できるAIモデル「Gen-1」を発表した。同社は、2022年に話題となったテキストから画像を生成するモデル「ステーブル・ディフュージョン(Stable Diffusion)」を、スタビリティAI(Stability.AI)と共同開発した企業である。
ランウェイのWebサイトに掲載されているデモリールでは、Gen-1が道行く人々をクレイアニメの人形に、テーブルに積み上げられた本を夜の街並みに変える様子が紹介されている。ステーブル・ディフュージョンが画像を生成したように、ランウェイはGen-1で映像を作り出したいと考えている。ランウェイの最高経営責任者(CEO)で共同創業者のクリストバル・ヴァレンスエラは、「画像生成モデルは爆発的に普及しています。私は、2023年は映像の年になると確信しています」と語る。
2018年に設立されたランウェイは、AIを搭載した映像編集ソフトウェアを数年前から開発している。同社のツールは、ティックトッカーやユーチューバーだけでなく、大手の映画スタジオやテレビスタジオでも使用されている。『ザ・レイト・ショー・ウィズ・スティーヴン・コルベア(The Late Show with Steven Colbert)』の制作陣は番組のグラフィック編集にランウェイのソフトウェアを使用しており、大ヒット映画『エブリシング・エブリウェア・オール・アット・ワンス (Everything Everywhere All at Once)』の視覚効果チームは、特定のシーンの制作にランウェイの技術を利用した。
ランウェイは2021年に、ミュンヘン大学の研究者と協力してステーブル・ディフュージョンの最初のバージョンを作成した。そこに、英国のスタートアップ企業であるスタビリティAIが参入し、より多くのデータでこのモデルを訓練するために必要なコンピューティング・コストを負担することとなった。2022年、スタビリティAIはステーブル・ディフュージョンを公開して広く知られるようになり、1つの研究プロジェクトが世界的なブームへと変貌した。
しかし、両社はもはや協力関係にはない。ステーブル・ディフュージョンの訓練用データに含まれるゲッティ(Getty)の画像をスタビリティAIが無断使用したとして、ゲッティが同社に対して法的措置を取っていることで、ランウェイは距離を置こうとしている。
Gen-1は、ランウェイの新たなスタートを象徴している。昨年末に発表されたメタの「メイク・ア・ビデオ(Make-a-Video)」やグーグルの「フェナキ(Phenaki)」など、テキストを映像に変換するモデルが相次いで登場している。これらはいずれも非常に短いビデオクリップをゼロから生成できるというものだ。Gen-1は先日公開されたグーグルの生成AI「ドリーミックス(Dreamix)」に、指定したスタイルを適用することで既存の映像から新しい映像を作成できるという点で似ている。しかし、少なくともランウェイのデモリールを見る限りは、Gen-1では映像のクオリティが一段と上がっているように見える。既存の映像を変換するため、従来の大半のAIモデルよりはるかに長い映像を作成することも可能だ。ランウェイは、Gen-1の技術的な詳細については近日中に自社のWebサイトで公開するとしている。
メタやグーグルとは異なり、ランウェイはユーザーを意識してモデルを構築している。「今回公開するのは、映像制作者のコミュニティと密接に関わりながら開発した最初のモデルの1つです」とヴァレンスエラCEOは言う。「実際に映画製作者やVFX編集者がポストプロダクションでどのように作業しているかという長年の洞察を取り入れています」。
Gen-1は、ランウェイのWebサイトを通じてクラウド上で動作する。2月6日から少数の招待ユーザーに提供し、数週間後には順番待ちリスト上の全員に提供する予定だ。
昨年の生成AIの爆発的な普及は、強力なクリエイティブ・ツールを初めて手にした数百万人の人々が、それを使って作ったものを共有したことによるものであった。ヴァレンスエラCEOは、Gen-1をプロのクリエイターの手に渡すことで、生成AIが映像にも同様のインパクトを与えるようになると期待している。
「完全な映画が生成されるようになるまで、本当にあと少しです」とヴァレンスエラCEOは語る。「インターネット上で目にするコンテンツのほとんどを、AIが生成する時代が近づいています」。
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
- ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
- AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。