オープンAI(OpenAI)は、現実離れした典型的な人工知能(AI)アートの生成ではなく、高度に制御可能で実用的なビジュアルの生成に特化した新しい画像生成ツールをリリースした。これは、オープンAIが広告やグラフィックデザインといった分野で、自社のツールが実用に耐えうると考えていることを示している。
現在、「GPT-4o」モデルの一部となっているこの画像生成ツールは、昨年5月にオープンAIが発表していたものの、これまでリリースされていなかった。チャットGPT(ChatGPT)での画像生成リクエストは従来、旧モデルの「DALL-E(ダリー)」によって処理されていた。オープンAIは発表以降、新モデルの微調整を続けてきたが、今月25日から数週間かけてすべてのユーザーに向けて新モデルをリリースし、旧モデルを置き換える予定である。
この新モデルは、AI画像生成ツールが長年直面してきた技術的課題の克服において進展を見せている。多くのAI画像生成ツールは、幻想的なイメージやリアルなディープフェイクの生成には優れていたが、「バインディング(binding)」と呼ばれる、特定のオブジェクトを正確に認識し適切な場所に配置する能力──たとえば「ホットドッグ」と書かれた看板を屋台の上に正しく配置する──には弱かった。
「青い立方体の上に赤い立方体を置く」といった、AIの創造的かつ専門的な活用に不可欠な命令をモデルがこなせるようになったのは、ほんの数年前のことだ。画像生成ツールはテキストの生成にも苦戦しており、読みやすい文字ではなくCAPTCHA(キャプチャ)画像のように歪んだ文字の集まりを出力することが多かった。
オープンAIが公開したサンプル画像からは、その進歩が見て取れる。この新モデルは、猫の絵文字や稲妻のマークなど、1枚の画像内に12個の独立したグラフィックを生成し、それらを正しい順序で配置できる。また、レシピカード付きの4種のカクテル、吹き出し付きのコミック・ストリップ、模擬広告、説明図なども生成可能だ。さらに、画像をアップロードして修正することもでき、GPT-4oだけでなく動画生成ツールの「Sora(ソラ)」でも利用可能になる。
「これはコミュニケーションのための新しいツールです」。オープンAIでこの生成ツールのリードデザイナーを務めるゲイブ・ゴーは述べる。同じくツールの開発に携わったオープンAIの研究者であるハタ・ケンジは、「我々は『美しいアートを作る』という発想から離れようとしているのだと思います」と別の表現で語った。美しいアートの生成も依然として可能だが、それ以上に実用的な使い方ができるようになるとハタは説明する。「ただ眺めるための画像ではなく、実際に役に立つ画像を作れるようになるのです」。
これは、オープンAIがグラフィックデザイナーや広告代理店、ソーシャルメディア・マネージャー、イラストレーターなど、プロのクリエイターの利用を見据えていることの明確な証左である。だが、この分野への参入には、いずれも困難を伴う2つの道がある。
第一の選択肢は、アドビの「フォトショップ(Photoshop)」のようなプログラムを長年使用してきた、熟練のプロフェッショナルをターゲットにすることだ。アドビも、生成AIで画像を補完するAIツールへの多額の投資を進めている。
「アドビはまさにこの市場を掌握しており、その進歩も十分速いので、ユーザーにとって乗り換えるだけの説得力がどれだけあるのかはわかりません」。AI動画生成に取り組むイレヴレント・ラボ(Irreverent Labs)の共同創業者兼最高技術責任者(CTO)であるデビッド・ラスキーノは言う。
第ニの選択肢は、「キャンバ(Canva)」のようなツールに集まるカジュアルなデザイナーをターゲットにすることだ(ちなみに、キャンバもAIに投資している)。この層は、フォトショップのような高度な技術が要求されるソフトウェアは必要とせず、よりカジュアルなデザインツールを利用してビジュアル素材を作成してきた。オープンAIがここで成功するためには、画像生成ツールのスピードと品質によって、少なくとも一部の制作工程において既存ツールからの乗り換えを促す必要がある。
オープンAIの新機能は現在の多くの画像生成ツールと同様に、ソーシャルメディア投稿の添え物として「十分な」画像をすばやく作るために使われる可能性もある。だが、同社が5000億ドル規模の「スターゲート(Stargate)」プロジェクトを含む前例のないデータセンター建設への参加など、大規模な投資を計画していることを踏まえると、収益獲得に向けた重要な役割を担うと考えるのが自然だ。
いずれにせよ、オープンAIの新しい画像生成ツールが重要な技術的ハードルを突破したという事実は、他のAI企業にとっての基準を引き上げた。この水準を達成するには、さまざまな角度や向きで正確に表示されたテキストを含む何百万枚もの画像といった、極めて特殊なデータが必要だった可能性が高いとラスキーノCTOは指摘する。他社の画像生成ツールも、この成果に追いつく必要がある。
「イノベーションのペースは今後さらに加速するでしょう」とラスキーノCTOは述べている。