上唇にはかすかに無精ひげが生え、額にはしわが入り、皮膚にはシミがあるのが見て取れる。だが、この男性は実在する人間ではない。データジェン(Datagen)が実在の人物を模倣するために作ったフェイク・ヒューマンなのだ。同社は、このように人間をシミュレーションしたフェイク・ヒューマンを数十万体も作成・販売している。
これらのフェイク・ヒューマンは、ゲーム用のアバターでもなければ、映画のためのアニメキャラクターでもない。深層学習アルゴリズム開発者からの増大するニーズに応えるべく設計された合成データだ。同アルゴリズムの訓練用の実世界のデータを収集するプロセスには費用も時間もかかるが、データジェンをはじめとする企業は、それに代わる魅力的な方法を提供している。顧客のために、顧客が望むように、顧客が必要なときに比較的安い料金でデータを生成できるのだ。
フェイク・ヒューマンを生成するにあたって、データジェンは最初に実際の人間をスキャンする。人工知能(Ai)システムのベンダーが、人々に代金を支払って巨大な全身スキャナーの中に入ってもらい、虹彩から肌の質感、指の曲がり具合に至るまで、あらゆる詳細なデータを取り込む。データジェンがその生データに一連のアルゴリズムを適用すると、人物の胴体や顔、目、手の3次元モデルが作成される仕組みである。
イスラエルを拠点とするデータジェンは、すでに米国の大手テック企業4社と協業していると述べているが、それがどこかは明らかにしていない。データジェンに最も近い競合他社であるシンセシス・エーアイ(Synthesis AI)も、オンデマンドのデジタル・ヒューマンを提供している。ほかに、金融、保険、ヘルスケアなどの分野で使用されるデータを生成している企業もある。 データの種類と同程度の数の合成データ作成企業が存在しているのだ。
合成データはかつて、実際のデータに劣ると見なされていた。だが、今ではオールマイティな解決策になると考えている人々もいる。実際のデータは乱雑で、偏っているうえに、新たなデータプライバシー規制により、収集が難しくなっている。それとは対照的に、合成データは純粋な存在であり、より多様なデータセットを構築するのに使用できる。たとえば、さまざまな年齢、骨格、民族などのラベル付けが完全にされた顔を数多く作成して、人種を問わずに機能する顔認識システムを構築することもできる。
しかし、合成データには限界がある。現実を反映することに失敗した場合、乱雑で偏った現実世界のデータを使う場合より劣悪なAIを生成する可能性があるのだ。もしくは、単に現実と同じ問題を引き継ぐ可能性もある。データサイエンティストであり、アルゴリズムを監査する企業、オルカー(ORCAA)の創業者であるキャシー・オニールは、「このパラダイムを歓迎して、『ああ、これで多くの問題が解決する』などと言いたくはありません」と語る。「なぜなら、合成データを使うことで多くのものを無視することになるからです」。
「現実的」だが、「現実」ではない
深層学習にとって、データは常に重要な存在だった。しかし、この数年間で、AIのコミュニティは良質なデータのほうがビッグデータよりも重要であることを学んだ。量が少なくても、きれいにラベル付けされた適切なデータのほうが、整理されていない10倍の量のデータやより高度なアルゴリズムよりも、AIシステムのパフォーマンスを向上させられるのだ。
データジェンのCEO(最高経営責任者)兼共同創業者であるオフィール・チャコンは、これにより、企業がAIモデルの開発に取り組む方法が変わると主張している。現在、各企業はできるだけ多くのデータを取得してから、パフォーマンスを向上するためにアルゴリズムに手を加え、調整している。だが、本来望ましいのはその反対のことである。すなわち、使用するアルゴリズムは一定で、訓練用データの構成のほうを改善していくべきだという。
…
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Why AI could eat quantum computing’s lunch AIの急速な進歩は 量子コンピューターを 不要にするか
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール