中国で最も人気のあるEコマース・プラットフォームであるタオバオ(Taobao:淘宝)のライブ配信映像を午前4時にスクロールしてみると、奇妙なほどに活況を呈している。ほとんどの人が熟睡しているこの早朝の時間帯に、多くの熱心なストリーマー(配信者)がカメラに向かって商品を紹介し、割引価格で販売している。
しかし、よく目を凝らすと、これらのライブ配信インフルエンサーの多くが、少々ロボットのように見えることに気づくかもしれない。唇の動きは発話内容とおおかた一致しているが、不自然に見える瞬間が必ず存在する。
これらのストリーマーは本物ではない。人工知能(AI)が生成した、本物のストリーマーのクローンだ。本物のようなアバター、声、動きを生み出すテクノロジーがより洗練され、料金も手ごろになるにつれ、中国のEコマース・ストリーミング・プラットフォーム全体で、このようなディープフェイクの人気が爆発的に高まった。
中国では現在、伝統的なブランドもデジタル・ブランドも、ライブ配信が最も有力なマーケティング・チャンネルになっている。タオバオ、ドウイン(Douyin:抖音)、クアイショウ(Kuaishou:快手)やその他のプラットフォームで、インフルエンサーは数時間で大量の取引を仲介できる。最高ランクのインフルエンサーは一晩で10億ドル以上の商品売上をたたき出し、大物映画スターのような非常に高いステータスを得ている。しかしその裏で、小規模ブランドでは、ライブ配信パーソナリティの訓練や確保、配信の技術的詳細の確立にかなりのコストがかかっている。この仕事を自動化する方がよほど安上がりだ。
2022年以来、中国の多くのスタートアップ企業と大手テック企業が、Eコマースライブ配信向けディープフェイク・アバターの作成サービスを提供している。数分のサンプル映像と1000米ドルの費用のみで、各ブランドは人間のストリーマーのクローンを作成して24時間年中無休で働かせることができる。
ディープフェイクからEコマースへ
2010年代後半、特に「ディープフェイク」と名乗るレディット(Reddit)・ユーザーが ポルノ映像の顔を入れ替えた出来事以来、人工的生成メディアはたびたび大きなニュースになっている。あれ以来このテクノロジーは進化したが、アイデアは変わらない。ツールを使用して、特定の本物の人物に見えるように顔を生成ないし操作し、実在の人物が絶対にしていない行動をとらせることができるというものだ。
従来このテクノロジーは、リベンジ・ポルノ、なりすまし、政治的な偽情報といった問題のある用途で知られることがほとんどだった。より害のない方法で商業化しようとする試みはあったが、いつも目新しい出来事で終わっていた。しかし最近、中国のAI企業はかなりうまくいきそうな新しい用途を見つけ出した。
南京を本拠にする2017年創業のスタートアップ企業、シリコン・インテリジェンス(Silicon Intelligence:硅基智能)は、自然言語処理、特にロボコール・ツールのようなテキスト音声合成テクノロジーを専門としている。だが、創業者兼最高経営責任者(CEO)の司馬華鵬によると、同社がAIの可能性としてのライブ配信ツールに初めて目を向けたのは2020年だという。
当時、シリコン・インテリジェンスでは、本物の人間のように話したり行動したりできるデジタル・クローンを生成するのに、30分の訓練用動画が必要だった。翌年には10分に短縮し、その後3分に、現在ではわずか1分間の映像しか必要としない。
テクノロジーの向上とともに、サービス料金も低下した。現在では、基本的なAIクローンの生成料金は8000人民元(日本円でおよそ16万円)ほどだ。より複雑で有能なストリーマーの作成を希望すると、料金は数倍まで上がる。この料金には生成のほかに、1年間の保守費用も含まれている。
生成されたアバターは、台本を読み上げる音声に合わせて口と身体が動く。かつては人間が台本を書いていたが、現在は大規模言語モデルで台本も生成する企業が多い。
人間の労働者に課せられる作業は、販売する商品の名 …