Why do we need synthetic data for AI now?

特別寄稿：なぜ今、AIのための「合成データ」が必要なのか？

現在の人工知能技術の主流である深層学習では、膨大な学習データが必要不可欠である。現実世界に足りないデータを補うために、「合成データ」という考えが浸透しつつある。 by Yukio Andoh2022.06.16

人工知能（AI）の研究と活用において、機械学習・深層学習は1つの大きなブレークスルーであった。機械学習を実践するためには大量のデータセットを用意し、実用的な精度を得るためには何度も機械学習を繰り返す必要があった。

機械学習には膨大なデータが必要

これら、必要とする機械学習のために膨大なデータを準備するのはコスト的にも時間的にも簡単なことではない。大学の研究機関やAI開発企業が研究用途に公開している顔や動物、物、風景といったデータセットを基に多くのAI研究が進められてきた。自分たちの研究目的に大量のデータを準備できる企業や研究機関の場合でも、データ量やデータの偏り、データ評価のミス、多様性の欠如、バイアスのかかったデータ群による認識結果への影響などが課題として挙がっていた。

: この記事はマガジン「世界を変える10大技術 2022年版」に収録されています。マガジンの紹介

そんな中、実用に向けたAI活用におけるスピード、精度、コストといった課題をクリアするために注目されているのが「合成データ（Synthetic Data）」と呼ばれる手法だ。機械学習用のデータを現実世界から取得するのではなく、実験室やコンピューターで生成したデータを用いる手法である。これらの合成データは、実験室の中で作られた人工的なデータではあるが、実世界の物体、事象、人物を正しく反映し、場合によっては雑多な実世界から集められた学習データよりも、機械学習用としては効果があるとさえ言われている。

調査会社ガートナーによる合成データに関する調査結果によれば、2020年の時点ではまだまだ実世界から取得した学習データが主流であるが、2030年頃には合成データの活用が実データを凌駕しているという予想が立てられている。

エヌビディアは、自動運転ソフトウェア開発プラットフォーム「NVIDIADRIVESIM（エヌビディア・ドライブ・シム）」を自動車メーカーに提供。AIトレーニングのための合成データを生成するエンジンも含まれる（写真提供:エヌビディア）。

コンピューターサイエンスや、ソフトウェアの品質管理、セキュリティの分野では、もともとダミーデータなどを利用する手法はあった。たとえばマーケティングデータのテスト用として、架空の顧客リストを用いたり、金融系のシステムテストのために、架空の利用者リストを用意したりといった活用法だ。航空機の操縦を会得するためのフライト・シュミレーターや、宇宙の現象をシミュレーションする計算機天文学でも実データではなくダミーデータの活用が盛んである。データのこういった利用はコスト面、プライバシー面、データの網羅性といった面でメリットを享受することができ、合成データではさらに一歩進んだ活用が期待されている。

合成データという考えは、米国の国勢調査を担当していたハーバード大学のドナルド・ブルース・ルービン名誉教授が、調査の偏りに気づき、データを合成して活用するという考えを発表した1993年の論文で取り上げたことに由来しているという。機械学習における合成データの利用が始まったのは2010年代で、これらは実社会からデータを収集するよりも、コンピューティング・パワーが安価に活用できるようになったことによるものと言われている。

ディープフェイクとの相違点

ディープフェイクと呼ばれる「嘘」のデータをAIで作成する手法が話題になることがある。「フェイク」という言葉からネガティブに捉えられがちだ。もちろん、著名人の発言を捏造するといった間違った用途は論外だが、そればかりではない。コンピューターで合成された風景や、顔を差し替えた映像など、実はハリウッド映画のVFX（特殊効果）でも大いに活用されている。

合成データの例は、厳密に追求すると実在しない「嘘（フェイク）」のデータではあるが、統計情報に基づいて適切に分布したデータ群を合成したり、現実世界のデータを切り貼りしたりしている。これらはデータの多様性を担保することが可能で、実社会で得られるデータ群よりも実は網羅的で整っており、ポジティブなデータ活用だと捉えることができる。

精度の高い合成データを必要な量だけ確保できれば、同量の実データとほぼ同等か、それ以上の結果を導き出せる。

合成データが重要視される一番の理由は、そのデータの正確性にある。実社会のデータ（たとえば画像データと、そこに何が表示されているのかを示したラベル）を利用するとなった場合、画像に何が表示されているのかを見分けてラベルを付けていくのは人間による手作業だ。そのため、処理にミスが生じたり、学習データに間違ったデータが入ったりしてしまう「リーケージ」が問題視されている。機械学習の大規模学習データとして用いられるメジャーなデータセット「イメージネット」でも5.8パーセント、手描き絵のデータセット「クイックドロー」では10.1パーセントのラベル間違いが含まれていると推定されている。これらの誤りを自動的に除去する研究や、手間をかけて人手で除去する方法も試みられているが、どちらも応急処置的な対応でしかない。

また現在は大きな課題として取り上げられることはないが、学習データに意図的に間違ったデータを忍び込ませることにより、特定の状況にのみ誤った判断をするといった機械学習モデルに「バックドア（裏口）」が生じる危険性も指摘されている。

合成データが生かされる分野とは

合成データの恩恵が受けられる業種・分野は下の表のとおりだ。これらの応用例の背景にはもちろん、合成データの正確性、低コストで大量のデータが用意しつつ学習精度の向上が期待できること、不正やバックドアといった悪意やミスによるデータの改ざんを避けられる、必要とするデータセットをすばやく入手できる、といった効果が期待されている。

現在は、合成データと実データにおけるそれぞれのメリットとデメリットを考えた上で、両者を混合したハイブリッド・データの活用を含め、状況に応じたバランスを考えた活用がなされている。合成データは歴史の浅い分野ながら、世界中で多くの合成データ提供企業が台頭してきている。多くはバーティカル（垂直）市場と呼ばれる、金融、保険、医療など特定の分野に特化した合成データを扱っている。

メリット1：バイアスの排除
どんなに中立的だと考えている人、研究者、企業でも、必ず何らかのバイアスを持っており、学習データを準備する際に偏りが生じてしまう可能性がある。多様性を持ったチームでの取り組みや経験や知見によってある程度は改善できるが、こういったバイアスのない学習データを適量、網羅的に用意する目的には合成データはとても向いている。合成データを生成する過程において、バイアスを極力排除できるからだ。

メリット2：説明責任
機械学習によって導き出された結果は、その理由や事情を説明するのが困難だ。一方、合成データによって学習された機械学習モデルであれば、どういった学習によってどういった成果が得られるのか、学習データの量が必要十分であるのか、網羅性が十分であるのかといった説明責任を果たすことが比較的容易である。

メリット3：プライバシー
欧州におけるGDPR（一般データ保護規則）のようにデータの活用、流用が厳しく制限される中で、必要なデータセットをすばやく大量に用意する方法として合成データが重宝されている。企業のコンプライアンスを遵守するため、顧客のプライバシーを守る意味でも合成データの活用にメリットがある。

機械学習モデルに適しているデータであることが重要

利用が広がってきている合成データだが、課題もある。合成データの利用が広まるにつれて徐々に解決していく事柄も多いと考えられ、現在は過渡期であるとも考えられる。現在、合成データ活用のメリットと考えられている事柄は、裏を返すと、以下のようなデメリットにもなりうる懸念がある。

合成データの正確性、網羅性
合成データ作成のためのコスト
合成データの必要量の見極め

精度の高い合成データを必要な量だけ確保できれば、同量の実データとほぼ同等、またはそれ以上の結果を導き出せることは数々の企業や研究で実証済みである。その一方、低品質な合成データによって、あり得ないほど偏った機械学習モデルが出来上がってしまう可能性も皆無ではない。ある特定の研究、ある特定の企業では良好な結果が得られた合成データが、同業種他企業にも有効だとは限らない。機械学習の活用ポイントや、注力している機能要素の違いによっても、最適な合成データが異なってくるからだ。

マイクロソフトが「ICCV2021」で発表した「Fake it till you make it」。合成データのみを用いて人間の顔を解析できることを実証した。

ただ1つ言えるのは、ミスや間違いの多い、信頼性の低い実データを大量に扱ったり、プライバシーを考慮するため実データから個人情報を隠すためのマスキング作業やダミーデータへの差し替えに手間をかけるよりは、合成データの利用が適していることは明白なことだ。モストリーAI（Mostly AI）のように実データを元にしたマスキング用途での合成データ生成というアプローチを取る企業もあり、純粋な合成データ、純粋な実データにはすでにそれほど価値がなく、「機械学習モデル構築に適したデータ」であることが最重要であるという認識が広がってきている。

純粋な実データにはすでにそれほど価値がなく機械学習モデル構築に適したデータであることが最重要である。

また合成データを活用する副次効果としてバイアスのかかったデータの利用を排除しやすい点もある。自分は偏見やバイアスを持っていないと思っていても、誰もが何かしら意識の偏りを持っているという前提で考える必要がある。たとえば顔認識で用いる実データは、特に意図せずとも顔画像が集めやすい人種、地域、年齢になりがちである。アンケート結果などで集めたデータも、アンケートが集めやすい場所、依頼しやすい人たちからばかり集めてはいないか。さらには、1つの画像に猫と空が表示されていた場合、たいていは画像に「猫」というラベルを付けるだろうが、実際に求められている情報は「空」かもしれないなど、偏りなく正しく分布したデータを必要なだけ用意するということは、こういった事情に慣れた調査会社でも相当難しい。これは人間の認知上避けられない要素であり、多様性と知見をもってバイアスを排除していく必要がある。実データを学習データとして用いる場合、バイアスの排除、偏りをなくすことは単にデータを集める以上に手間とコストのかかる作業になる。こういった余計な手間とコストを排除して、あらかじめ複数の観点でバイアスが取り除かれている確信が持てる合成データの利用には大いに価値があると考えられる。

高まるニーズ

機械学習の活用範囲、事例が増えていくと共に、合成データのニーズも広がってくることが容易に予想できる。現在はバーティカル（垂直）市場と呼ばれる特定業種、特定用語ごとに合成データを提供する会社が乱立している状態であり、データ応用のノウハウや知見、事例、データの保持、法制度などを考えると、こういった状況はしばらく続くと考えられる。

今後は、作成した複数パターンの合成データの利用料を必要量に応じてオンデマンドで販売したり、ある企業、ある業種向けに作成した合成データを横展開することで、コストを軽減させたり、複数の企業が合同で合成データを用意したりといった、さまざまなビジネスモデルの広がりが予想される。

また従来はデータを集めることが容易ではないために価値がないと考えられていた分野に、合成データを求める声が増える可能性もある。現段階では機械学習とは直接関係がない業界でも、マーケティングや調査のために大量のデータを扱っている業種は数多い。こういったビッグデータを扱う業種や行政関連のオープンデータを扱う業種も、今後は合成データの有意性を見い出す可能性は高い。

意図的にミスを起こすような機械学習をさせたとしても、機械学習モデルからはその異常を検知することが難しい。そのため、正しく整形された網羅性の高い合成データの活用は今後もますます広がっていくだろう。

人気の記事ランキング

安藤幸央 [Yukio Andoh]日本版寄稿者: 株式会社エクサSmartシステム開発本部クリエイティブ・サービス・デザイナー。立教大学司書課程非常勤講師。昭和女子大学環境デザイン非常勤講師。情報家電から携帯電話アプリ、Webサービスから業務システムまで、多岐にわたったユーザー・インタフェースやユーザー・エクスペリエンス関連、人工知能活用の業務や教育を手がける。

▼Promotion