アドビ(Adobe)の上級研究員であるリチャード・チャンは、「ステーブル・ディフュージョン(Stable Diffusion)」や「スタイル・ガン(StyleGAN)」といった画像生成AI(ジェネレーティブAI)モデルの基礎となる、視覚的類似性を評価するアルゴリズムを発明した。
チャンはカリフォルニア大学(UC)バークレー校で博士号を取得する過程で生成AIの研究を始めた。そして、広く使用されている、白黒写真をカラー化するアルゴリズムを作成した(この研究は「アドビ・フォトショップ」のカラー化ツールに結実した)。
この研究をする中で、チャンは人工知能(AI)システムを訓練するための「よい客観的な指標」が存在しないことに気づいた。リアルな色彩でも画像の明瞭度でも、「人間に良く見えるように画像を描くのは実に難しいことです」とチャンは語る。
こうした指標を導出するアルゴリズムのほとんどは、数学的モデルを使用して、異なる画像が人間の目に同じように見える度合いを評価する。だが、人間の知覚は複雑で、数学の問題として捉えるのは容易ではない。そこで、チャンはより優れている評価法である「LPIPS」を構築した。これは現在に至るまで、チャンが達成した最も影響力のある成果だ。
LPIPSは、人間の知覚判断のビッグデータセットを計算に組み入れる点で比類のないものだ。この仕組みによりLPIPSは、これまで数十年にわたって使用されてきたようなすべてのモデルを凌駕して、知覚的類似性の新たな標準になった。LPIPSが存在しなければ、現在の画像生成AIは実現しなかっただろう。
2018年のアドビ入社以来、チャンの研究成果は、フォトショップの風景ミキサー機能やスマートポートレイトなどとして、商用ソフトウェアツールに組み込まれている。チャンはAIが生成した画像を検出できるようにするアルゴリズムにも取り組んでおり、これは画像素材提供サイト「アドビストック」のフォレンジック・ツールの一部として組み込まれている。
(アイリーン・グオ)