ニューズラインエマージング・テクノロジーの最新情報をお届け。

A new algorithm can mimic your voice with just snippets of audio

バイドゥ、たった10個のサンプルからそっくりな音声合成に成功

バイドゥ（Baidu）は、ニューラル・ネットワークを用いて、驚くほどうまく声を模倣できるシステムを開発した。

人工知能（AI）は通常、ある人の声を再合成するために、その人の話し声の録音を何時間分も聞く必要がある。だが、新しいシステムでは、それを1分間にまで短縮できる。バイドゥの研究者が発表した、テキストから音声を合成するシステム「ディープ・ボイス（Deep Voice）」のアップグレード版は今や、音声の断片をいくつか聞けばどんな声でも模倣できる。

ディープ・ボイスによる音声の模倣は、聞くサンプルの数が多いほどよい結果となる。しかし、それぞれ5秒未満のたった10個のサンプルから生成した合成音声であっても、音声認識システムを95％以上の確率で欺くことができた。バイドゥは、模倣した合成音声のいくつかをサーバー上に置いて、誰でも聞けるようにしている。

もちろん、不都合な点もある。このようなテクノロジーは、声を使用する生体認証システムのセキュリティを大きく損なう可能性がある。人々は、すでに送信元を友達と偽った電子メールの罠に落ちている。母親が電話してお金を借りようとしているふうに聞こえたら、どうなるのだろう？

jackie.snow [Jackie Snow] 2018.03.01, 7:55

MITTRが選んだ世界を変える10大技術 2025年版: 本当に長期的に重要となるものは何か？これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。
特集ページへ

MITテクノロジーレビューは有料会員制サイトです

有料会員になると、毎月150本以上更新されるオリジナル記事が読み放題！