データ・サイエンス・ナイジェリア(Data Science Nigeria)の研究チームは2021年、コンピュータービジョンのアルゴリズムを訓練する際、西洋の洋服に関しては豊富なデータセットからデータを選べるのに対して、アフリカの衣服に関するデータセットはまったく存在しないことを指摘した。同チームは、人工知能(AI)を使い、アフリカのファッションの人工的な画像というまったく新しいデータセットをゼロから生成することによって、その不均衡の解消に取り組んだ。
このような合成(シンセティック)データ・セット、つまり本物のデータと同じ統計的特性を備えたコンピューター生成サンプルは、データへの需要が急増している機械学習の世界においてますます一般的なものになっている。こうした偽データは、本物のデータが乏しかったり、機密性が高かったりして、本物のデータを使用できない分野でAIを訓練する目的に使用される。例えば、医療記録や個人の金融データといったものだ。
合成データのアイデア自体は新しいものではない。例えば無人乗用車はバーチャルな道路で訓練されている。だが、この1年で合成データのテクノロジーは広く普及し、今では山ほどのスタートアップや大学がサービスを提供している。例えば、データジェン(Datagen)やシンセシスAI(Synthesis AI)は、要求に応じて人の顔をデジタル生成して提供しているし、金融や保険の合成データを提供している企業もある。マサチューセッツ工科大学(MIT)のデータ・トゥ・AIラボ(Data to AI Lab)が2021年に立ち上げたプロジェクト「シンセティック・データ・ボルト(Synthetic Data Vault)」では、さまざまな種類のデータを作成するオープンソース・ツールを提供している。
合成データセットのブームを牽引しているのは、生成するものが画像であれ医療記録であれ、本物そっくりの偽サンプルの生成を得意とするタイプのAIである「敵対的生成ネットワーク(GAN)」だ。
合成データの支持者らは、合成データは多くのデータセットに存在するバイアス(偏り)を回避できると主張している。だがそれは、合成データを生成するために使用された本物のデータに偏りがない場合においてのみ成り立つ主張だ。例えば、白人の顔より黒人の顔の方が少ないデータで訓練されたGANは、黒人の顔の割合が高い合成データセットを作成できるかもしれない。だが、元データに限界があるため、作成される顔が実物らしくないものになる可能性がある。