オープンAI、文章から画像を描く「DALL-E2」を100万人に提供

サンフランシスコに拠点を置くAI企業のオープンAI（OpenAI）は、画像生成プログラム「DALL-E（ダリー） 2」のベータ版について、提供待ちリストに登録済みの100万人へ提供する。拡大に伴い、一部有料化に踏み切る。

今年4月に招待制で提供が始まって以来、およそ10万人がDALL-E 2を試用している。そして今、オープンAIは、DALL-E 2を有料サービス化するにあたり、その10倍の人数に門戸を開く。

オープンAIの製品・パートナーシップ担当副社長のピーター・ウェリンダーは、「（DALL-E 2は）GPT-3のときよりもはるかに大きな、私たちが予想した以上の関心を集めています」と話す。有料ユーザーはDALL-E 2で生成した画像を、児童書の挿絵、ゲームや映画のコンセプト・アート、マーケティング用のパンフレットといった商業プロジェクトで使えるようになる。しかし、今回の製品発売は、オープンAIが強力な人工知能（AI）を展開するにあたって採用してきた、段階的に顧客へリリースして問題が発生したら対処するというアプローチに対して、過去最大の試練をもたらすだろう。

DALL-E 2の料金はそれほど高くはない。DALL-E 2に文章を入力すると、1回あたり4枚の生成された画像を入手できる。この料金が「1クレジット」だ。ユーザーは最初の月に50クレジット、その後は月に15クレジットが無料で付与される。ユーザーは一般的に、1つの文章で数十枚の画像を生成し、最高の出来の画像だけを取っておく傾向があるので、パワー・ユーザーならすぐにその割り当てを使い果たしてしまうかもしれない。クレジットが足りなくなれば、15ドルで115クレジットを追加購入できる（つまり150ドルで460枚の画像を入手できる）。

Experiments I conducted with DALL·E 2 from @OpenAI replicating styles of well known portrait photographers using photo-realistic AI. 🧵
1. Dorothea Lange pic.twitter.com/845AzE51xu

— Michael Green (@triplux) June 30, 2022

今回の発売に先立ち、オープンAIはアーリー・アダプターと協力して、ツールの問題解決に取り組んできた。第一波のユーザーは、かわいい動物のマッシュアップや、実在する写真家の作風を不気味なほど正確に模倣した写真、レストランやスニーカーのデザインのコンセプトを視覚化するムード・ボードなど、シュールで印象的な画像を続々と生み出してきた。これにより、オープンAIはDALL-E 2の長所と短所を探ることができた。同社でプロダクト・マネージャーを務めるジョアン・ジャンは「非常に多くの素晴らしいフィードバックをいただいています」と言う。

すでにオープンAIは、ユーザーが作成できる画像の種類を制御する手段を講じている。例えば、有名人が描かれた画像は生成できない。今回の商用化に向け、オープンAIは初期のユーザーから指摘されたもう1つの深刻な問題に対処した。4月に公開されたDALL-E 2のバージョンは、最高経営責任者（CEO）や消防士が白人男性ばかりだったり、教師や看護師が白人女性ばかりだったりと、明らかにジェンダーや人種にバイアスがある画像がたびたび生成されていた。

7月18日、オープンAIは修正版を発表した。ユーザーがDALL-E 2に人の集団を含む画像を生成するように求めると、DALL-E 2はオープンAIが世界的な多様性をより広く表していると主張するサンプルのデータセットを使うようにした。オープンAIが独自に実施した調査では、ユーザーがDALL-E 2の出力に多様なバックグラウンドを持つ人々が含まれていると回答する傾向が12倍になったそうだ。

これは必要な修正だが、表面的なものだ。オープンAIは、ユーザーが求めることができるものをフィルタリングしたり、基盤となるモデルが生成するものを検閲したりして、ユーザーが指摘する多くの問題に対処している。しかし、モデル自体の問題や、訓練データの問題を修正しているわけではない。根本的な対処ではなく表向きなものだから、オープンAIは迅速に修正できるのだ。ただ、一部の人にとっては、これは単なる応急処置でしかない。

ロンドン・スクール・オブ・エコノミクスのジュディ・ワイクマン教授は「アルゴリズムにおける社会的バイアスは非常に大きな問題です」と言う。彼女はアラン・チューリング研究所でデータ科学とAIにおけるジェンダーの問題についても研究している。「多くのエネルギーが技術的な修正に注がれており、そのような努力のすべては賞賛に値します。しかし、問題に対する長期的な解決策ではありません」。

それでもオープンAIは、DALL-E 2でジェンダーと人種のバイアスに対処したことが、本格的な公開に踏み切る自信につながったと述べている。しかし、これが最終結論ではない。AIにおけるバイアスは悪質かつ解決が難しい問題であり、同社は新しい事例が発生するたびにモグラ叩きのように修正を続けなければならないだろう。オープンAIは、製品に調整が必要な時は、いつでも提供を一時停止すると話している。

ウェリンダー副社長は、バランスをとることが大切だと話す。調整によって、ユーザーが生成しようとする画像が予期しない方向に抑制される可能性がある。例えば、オープンAIがジェンダー・バイアスの修正を初めてリリースしたとき、一部のユーザーから「女性のスーパーマリオが多すぎる」という苦情があった。このようなケースは、事前に予測することが難しいとウェリンダー副社長は言う。「人々がどのような画像を生成しようとしているのかを確認することで、調整や調節ができるのです」。

しかし、100万人以上のユーザーが生成した数億枚もの画像を監視することは、膨大な作業になる。ウェリンダー副社長は、人間のモデレーターの必要人数についての質問は巧みにかわしたが、社内のスタッフで賄う予定だとは話した。オープンAIは、人間の判断と自動検査を組み合わせたハイブリッド・アプローチによるモデレーションを採用している。ウェリンダー副社長によれば、チームの構成はモデレーターを増やしたり、人間と機械の介入のバランスを調整したりすることで、必要に応じた変更ができるという。

グーグルは今年5月、独自の画像生成AI 「イメージェン（Imagen）」を発表した。オープンAIとは異なり、グーグルはこのテクノロジーに関する計画をほとんど明らかにしていない。「イメージェンについて発表できる新しい情報は、まだありません」とグーグルのブライアン・ガブリエル広報担当は言う。

オープンAIは、2015年に設立された当時、汎用AIに対する信念と、そのテクノロジーの実現によって人類全体に利益をもたらすという使命を持つ、純粋な研究所を自称していた。しかしこの数年、同社は製品企業へと方向転換し、その強力なAIを有料顧客に提供している。

しかし、そうした変遷はすべて同じビジョンの一部だとウェリンダー副社長は話す。「オープンAIのテクノロジーを製品として大規模に展開することは、当社のミッションにおける欠かせない要素の1つです。ハードルが低いうちに、AIというテクノロジーに関する有用性と安全性の確認を、早いうちから繰り返すことが重要だからです」。

OpenAI is ready to sell DALL-E to its first million customers オープンAI、文章から画像を描く「DALL-E2」を100万人に提供