ひっそりと浸透する「AI声優」、人間の仕事を奪うか？

深層学習のブレークスルーにより、人間の話し方の微妙なニュアンスまで再現する「AI声優」が活躍の場を広げている。新しいデジタル広告やブランドに合わせたオリジナル音声の確立といった期待の一方、人間の声優には不安の声もある。 by Karen Hao2021.10.12

ウェルセド・ラボ（WellSaid Labs）のブログ記事には、90年代の米国のインフォマーシャルのような熱気に満ち溢れている。顧客企業が「8人の新しいデジタル声優」に期待できることを説明しているのだ。例えば、トービンは「エネルギッシュで洞察力に富んでいる」、ペイジは「落ち着きがあり、表現力豊か」、エヴァは「洗練され、自信に満ちたプロフェッショナル」といった具合だ。

それぞれのデジタル声優は、人間の声優に基づいて作られている。AIを利用して人間の声優の特徴を同意を得た上で保っている。顧客企業はデジタル声優のライセンスを取得すれば、何でも好きなことをデジタル声優に語らせることができる。音声エンジンに文章を入力するだけで、文章を自然に読み上げる鮮明な音声クリップができあがる。

シアトルを拠点とするウェルセド・ラボは、非営利の研究機関であるアレン人工知能研究所（AI2：Allen Institute of Artificial Intelligence）からスピンアウトしたスタートアップ企業。顧客企業にAIを利用した合成音声を提供しており、企業のeラーニング映像の音声に特化した企業だ。ほかにも、デジタルアシスタントやコールセンターのオペレーター、さらにはビデオゲームのキャラクターの音声を作っているスタートアップ企業もある。

このようなディープフェイク音声は詐欺の電話やインターネット上の不正行為に使われ、少し前まで評判が悪かった。だが、品質が向上したことで、多くの企業が関心を寄せるようになった。近年の深層学習のブレークスルーにより、人間の話し方の微妙なニュアンスの多くの再現ができるようになったことも大きい。深層学習を使った合成音声は適切なところで間を取り、息継ぎをし、話し方や感情を変えることもできる。話す時間が長すぎると見破られることもあるが、短い音声クリップなら人間と区別がつかないものもある。

AI音声は安価かつ大規模化が可能で、扱いやすいのも特徴だ。人間の声優での録音とは異なり、合成音声は台本をリアルタイムで更新できるので、広告のパーソナライズに新しい可能性をもたらす。

しかし、超現実的なフェイク音声の増加による影響は、さまざまな方面におよぶ。特に人間の声優にとっては、フェイク音声が自らの生計にどのような影響を与えるのか、気になるところだ。

フェイク音声の作り方

合成音声は、新しいものではない。しかし、初代のシリ（Siri）やアレクサ（Alexa）といった旧来の合成音声は、単に音をくっつけただけの、ぎこちないロボット音声を実現しただけだった。少しでも自然に聞こえるようにするためには、多くの時間と労力を要する手作業が必要だった。

深層学習がそれを変えた。音声開発者は生成した音声に、正確なテンポや発音、またはイントネーションを指示する必要がなくなった。代わりに、数時間分の音声をアルゴリズムに入力して、アルゴリズムにそれらのパターンを学習させればいいのだ。

この基本的な考え方に基づいて、研究者たちは長年にわたり、ますます高度な音声エンジンを開発してきた。例えば、ウェルセド・ラボが構築した音声エンジンは、大きく2つの深層学習モデルを使用している。1つ目のモデルは、文章の一節からアクセント、速度、音色など、話し手の声の大まかな特徴を予測するもの。2つ目は、息継ぎや環境での声の響き …

こちらは会員限定の記事です。 メールアドレスの登録で続きを読めます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

【春割】実施中！年間購読料20%オフ！

人気の記事ランキング