プロンプト不要、生成AIで誰でも物語からマンガが作れる
テキスト-画像生成AIは物語性のある複数の画像を生成するのが苦手だ。複数の画像で、設定に一貫性を持たせるのが難しいからだ。だが最近、物語を一度入力すると、それに合った一連の画像を生成するサービスが登場した。 by Will Douglas Heaven2024.03.07
13年前、ジャーナリズムの授業の宿題で、私は高級キャットフードを食べる男に関する馬鹿げた短い物語を書いた。今朝、私は「ロア・マシーン(Lore Machine)」という生成(ジェネレーティブ)AIプラットフォームが、自分の書いたおかしな話に命を吹き込むのを座って眺めていた。
自作の物語をテキストボックスに入れると、次のようなメッセージが出た。「シーン、ロケーション、キャラクターと、雰囲気を特定しています。このプロセスには最長2分かかる場合があります」。ロア・マシーンは、テキストを分析し、キャラクター描写と言及されたロケーションを抽出してから、そういった情報の断片を画像生成モデルに渡す。やがて、画面上にストーリーボードが現れた。半ば忘れていた自作のキャラクターたちの鮮やかなマンガ表現をクリックしながら、私の心は踊っていた。
1年以上の開発期間を経て、現在ロア・マシーンは初めて一般に公開されている。1カ月10ドルで、10万語(1度に3万語まで)のテキストをアップロードし、短い物語、台本、ポッドキャストを書き起こしたものなどから、80枚の画像を生成できる。ヘビーユーザー向けの価格設定もあり、エンタープライズ・プランは1カ月160ドルで、テキスト224万語、画像1792枚までに対応する。イラストは、用意されたさまざまなスタイルで生み出され、マンガから水彩画、80年代の低俗テレビ番組風まである。
広告制作会社モダンアーツ(Modern Arts)の創業者であるザック・ライダーは、ロア・マシーンの創業者であるトビー・カンピオンCEO(最高経営責任者)にロア・マシーンに何ができるかを最初に見せられてから、早期アクセス版を使ってきた。ライダーが短編映画の台本を送ると、カンピオンCEOはロア・マシーンを使って、一夜のうちにそれを16ページのグラフィック・ノベルにしたのだ。
「トビーが自分の画面を見せてくれたのを覚えています。私たちみんなが、ただただ完全に圧倒されました」と、ライダーは言う。「画像生成の面ではそれほどでもなかったのです。ストーリー性の高さに圧倒されました。物語の流れからキャラクターの感情まで、最初からバッチリでした」。
モダンアーツは現在、ロア・マシーンを用いて、ネットフリックスの『ラブ、デス&ロボット(Love, Death and Robots)』の制作者が書いたテキストに基づくマンガシリーズの架空世界を生み出している。
中身に目を向ければ、ロア・マシーンはおなじみのものでできている。大規模言語モデルがテキストを読み取って、人や場所に関する描写と、全体の情緒を特定し、ステーブル・ディフュージョン(Stable Diffusion)のあるバージョンが画像を生成する。群を抜いているのは、使いやすさだ。私が自作の物語のアップロードからストーリーボートのダウンロードまでにクリックしたのは、6回ほどだったと思う。
ロア・マシーンが使いやすいニューウェーブ系ツールの1つと言われるのは、このためだ。クリック1つで操作できるWebインターフェイスの背後に生成モデルの素晴らしい力を秘めたツールだ。コンテンツ制作会社であるニュー・コンピューター・コーポレーション( New Computer Corporation)のベン・パーマーCEOは、「新たなAIツールを把握し続けるのはかなり大変です。インターフェイスと作業工程がツールによって異なりますから」と話す。「巨大ツールをひとつの一貫したユーザー・インターフェイスで使用できるのはとても魅力的です。これが業界の着地点になるような気がします」。
プロンプト不要
カンピオンCEOがロア・マシーンの会社を2年前に設立したのは、ウィキペディアのブロックチェーン版に取り組むためだった。しかし、人々が生成AIに夢中になる様子を見て、方向転換した。カンピオンCEOは、自由に使えるテキスト-画像生成モデルである「ミッドジャーニー(Midjourney)」を使って、サミュエル・コールリッジの長編の叙事詩『老水夫行(The Rhyme of the Ancient Mariner)』のマンガ版を作った。このマンガは注目を集めたものの、作るのは楽しくなかったとカンピオンCEOは言う。
「妻はこのプロジェクトを嫌っていました。私は毎晩、朝の4時まで起きていて、コツコツと取り組み、画像を適切なものにしようとしていました」。問題は、テキストから画像を生成するミッドジャーニーのようなモデルが画像を1枚ずつ生成するという点だった。これにより、異なる画像の間でキャラクターの一貫性を保つのが難しくなる。複数の画像にわたって特定のスタイルを維持することさえも困難となり得る。「より奇妙な、抽象的表現へと逸れていく羽目になりました」と、カンピオンCEOは言う。
この経験からカンピオンCEOは、生成AIのテクノロジーをもっとずっと使いやすくする必要があると気付いた。カンピオンは、ロア・マシーンが一連のイラストの間で画像とスタイルの一貫性を保つための手法について詳しく話そうとしなかった。その仕組みは非常に上手いものであるが、完璧ではない。私が作った物語のあるシーンでは、短髪のキャラクターの前髪が伸びてしまっており、別のシーンでは、同じキャラクターが2回出てくる。イラストが特徴を欠いているようにも思えてくるかもしれない。しかし、手作業で、延々とプロンプトを入力するのに比べれば、かなり大きな進歩だ。
ライダーは、「一貫性がすばらしい」と言う。そのおかげで、モダンアーツは、あるクライアントのプロジェクトにロア・マシーンを使用する自信を得た。「いちいち戻って一貫性の問題を絶えず修正する必要があったら、期限通りに納品することは絶対にできません」。
あらゆる生成モデルと同様に、ロア・マシーンの背後で動くテクノロジーも、要望に応じて有害なコンテンツを生成するだろう。カンピオンCEOは、暴力や嫌悪のこもったステレオタイプを描写する画像の生成を阻止していると言う。しかし、その一方で、アーティストの創造的表現を妨げたくないと考えている。たとえば、著名人の二次創作作品のためのイラストを生成するのもひとつの使い方だ。
ロア・マシーンへの初期の関心の多くはマーケティング会社からのものだった。しかし、一般公開により、もっと幅広いユーザーが使ってみてくれることを、カンピオンCEOは期待している。6カ月前に彼は、マンハッタンにある学習障害を持つ子どものための学校の校長から電話をもらった。この校長は、ロア・マシーンを使って教科書をマンガにし、生徒たちに見せたいと考えていた。「考えてもみなかったことでした。私はあまりにハリウッド的思考にどっぷり浸かっていました」と、カンピオンCEOは言う。
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
- ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
- AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。