KADOKAWA Technology Review
×
3Dモデル入力から生成された映像のサンプル(RUNWAY提供)
The original startup behind Stable Diffusion has launched a generative AI for video

生成AIが新章突入、Stable Diffusion共同開発元が動画版を発表

画像生成AI「ステーブル・ディフュージョン」の最初のバージョンを開発した英国のスタートアップ企業が、映像を生成するAIを発表した。既存の映像にテキストや画像を指定すると、新しい映像に変換できるという。 by Will Douglas Heaven2023.02.08

生成AI(ジェネレーティブAI)のスタートアップ企業であるランウェイ(Runway)は、テキスト入力や参照画像で指定した任意のスタイルを適用して、既存の映像を新しい映像に変換できるAIモデル「Gen-1」を発表した。同社は、2022年に話題となったテキストから画像を生成するモデル「ステーブル・ディフュージョン(Stable Diffusion)」を、スタビリティAI(Stability.AI)と共同開発した企業である。

ランウェイのWebサイトに掲載されているデモリールでは、Gen-1が道行く人々をクレイアニメの人形に、テーブルに積み上げられた本を夜の街並みに変える様子が紹介されている。ステーブル・ディフュージョンが画像を生成したように、ランウェイはGen-1で映像を作り出したいと考えている。ランウェイの最高経営責任者(CEO)で共同創業者のクリストバル・ヴァレンスエラは、「画像生成モデルは爆発的に普及しています。私は、2023年は映像の年になると確信しています」と語る。

2018年に設立されたランウェイは、AIを搭載した映像編集ソフトウェアを数年前から開発している。同社のツールは、ティックトッカーやユーチューバーだけでなく、大手の映画スタジオやテレビスタジオでも使用されている。『ザ・レイト・ショー・ウィズ・スティーヴン・コルベア(The Late Show with Steven Colbert)』の制作陣は番組のグラフィック編集にランウェイのソフトウェアを使用しており、大ヒット映画『エブリシング・エブリウェア・オール・アット・ワンス (Everything Everywhere All at Once)』の視覚効果チームは、特定のシーンの制作にランウェイの技術を利用した。

ランウェイは2021年に、ミュンヘン大学の研究者と協力してステーブル・ディフュージョンの最初のバージョンを作成した。そこに、英国のスタートアップ企業であるスタビリティAIが参入し、より多くのデータでこのモデルを訓練するために必要なコンピューティング・コストを負担することとなった。2022年、スタビリティAIはステーブル・ディフュージョンを公開して広く知られるようになり、1つの研究プロジェクトが世界的なブームへと変貌した。

しかし、両社はもはや協力関係にはない。ステーブル・ディフュージョンの訓練用データに含まれるゲッティ(Getty)の画像をスタビリティAIが無断使用したとして、ゲッティが同社に対して法的措置を取っていることで、ランウェイは距離を置こうとしている。

Gen-1は、ランウェイの新たなスタートを象徴している。昨年末に発表されたメタの「メイク・ア・ビデオ(Make-a-Video)」やグーグルの「フェナキ(Phenaki)」など、テキストを映像に変換するモデルが相次いで登場している。これらはいずれも非常に短いビデオクリップをゼロから生成できるというものだ。Gen-1は先日公開されたグーグルの生成AI「ドリーミックス(Dreamix)」に、指定したスタイルを適用することで既存の映像から新しい映像を作成できるという点で似ている。しかし、少なくともランウェイのデモリールを見る限りは、Gen-1では映像のクオリティが一段と上がっているように見える。既存の映像を変換するため、従来の大半のAIモデルよりはるかに長い映像を作成することも可能だ。ランウェイは、Gen-1の技術的な詳細については近日中に自社のWebサイトで公開するとしている。

メタやグーグルとは異なり、ランウェイはユーザーを意識してモデルを構築している。「今回公開するのは、映像制作者のコミュニティと密接に関わりながら開発した最初のモデルの1つです」とヴァレンスエラCEOは言う。「実際に映画製作者やVFX編集者がポストプロダクションでどのように作業しているかという長年の洞察を取り入れています」。

Gen-1は、ランウェイのWebサイトを通じてクラウド上で動作する。2月6日から少数の招待ユーザーに提供し、数週間後には順番待ちリスト上の全員に提供する予定だ。

昨年の生成AIの爆発的な普及は、強力なクリエイティブ・ツールを初めて手にした数百万人の人々が、それを使って作ったものを共有したことによるものであった。ヴァレンスエラCEOは、Gen-1をプロのクリエイターの手に渡すことで、生成AIが映像にも同様のインパクトを与えるようになると期待している。

「完全な映画が生成されるようになるまで、本当にあと少しです」とヴァレンスエラCEOは語る。「インターネット上で目にするコンテンツのほとんどを、AIが生成する時代が近づいています」。

人気の記事ランキング
  1. The winners of Innovators under 35 Japan 2024 have been announced MITTRが選ぶ、 日本発U35イノベーター 2024年版
  2. Kids are learning how to make their own little language models 作って学ぶ生成AIモデルの仕組み、MITが子ども向け新アプリ
  3. The race to find new materials with AI needs more data. Meta is giving massive amounts away for free. メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る