機械の音声にはがっかりさせられる。最高の音声読み上げシステムでも品質は機械的であり、人間が使うイントネーションの基本的な変化がない。代表的な例として、これまで多く複製されてきたスティーヴン・ホーキング博士の音声合成システムがあげられる。
近年の機械学習における大きな進歩を考えると、このことは驚きに値する。確かに、顔や物体を認識して、それらのリアルな画像を再現することに長けているこの技術は、音声に関しても同様に機能しそうだ。しかし、現実はそうではない。
少なくとも、これまでは上手くいかなかった。そこで、フェイスブック人工知能(AI)研究所のメンバーであるショーン・ヴァスケスとマイク・ルイスの出番だ。2人は音声読み上げシステムの限界を克服し、完全に機械から生成された非常にリアルな音声クリップを作り出す方法を編み出した。彼らが作った「メルネット(MelNet)」と呼ばれる機械は、人間のイントネーションを再現するだけでなく、実際の人物と同じ声を再現できる。このチームは特に、ビル・ゲイツを真似て話すよう機械を訓練した。ヴァスケスとルイスの研究は、人間とコンピューターの間のよりリアルな対話の可能性を開く一方で、フェイク音声コンテンツの新時代到来に対する不安を引き起こす。
まずは背景的な話をしよう。本物の人間のようにテキストを読み上げるシステムの進歩が遅いのは、試みが欠如していたからではない。これまで多くのチームが、大量の音声データベースを使い、深層学習アルゴリズムを訓練して、実際の人間のような音声パターンを再現する試みをしてきた。
このアプローチにおける問題はデータの種類にあると、ヴェスケスとルイスは話す。これまでのほとんどの取り組みは、音声波形の記録データに焦点を当ててきた。音声波形の記録データでは、秒単位の録音において、音の振幅が経時的にどう変化しているかを、何万というタイムステップで構成された音声データにより示している。
音声波形は、さまざまに異なる時間尺度で特定のパターンを示す。例えば数秒間の発話では、波形は単語の配列に関係する特徴的なパターンを示す。しかし、マイクロ秒単位では、波形は声の高低と音色に関係した特性を表す。さらに、別の尺度では、波形は話し手のイントネーションや音素構造などを示す。
こうしたパターンについての別の考え方として、あるタイムステップと次のタイムステップにおける波形の …