MIT Tech Review: グーグルがビデオ会議のイライラを解消、音声の途切れをAIで補完

ニューズラインエマージング・テクノロジーの最新情報をお届け。

Google’s auto-complete for speech can cover up glitches in video calls

グーグルがビデオ会議のイライラを解消、音声の途切れをAIで補完

対面でのやり取りにビデオ通話を使う人が多くなった現在、接続が途切れ途切れになり、以前にも増してイライラさせられるようになった。そこで、個々の話者の話し方を模倣して発言のスニペット（断片）を生成し、小さな隙間を埋めることで、途切れをスムーズにしてくれる人工知能（AI）が登場した。グーグルのチームが開発したこのテクノロジーは現在、同社のビデオ通話アプリ「デュオ（Duo）」で使われている。

オンライン通話中、私たちの声はたくさんの小さな断片に切り刻まれ、パケットと呼ばれるデータブロックの形でインターネット上を通り抜けていく。パケットは多くの場合、相手方にごちゃごちゃになって到着するので、ソフトウェアでそれらを並べ替える必要がある。しかし、まったく届かないパケットもあり、それが原因で会話に不具合や途切れが生じる。これは通話状態がもっともよい時でさえ起こる。グーグルによると、デュオでの通話の99%で、ごちゃごちゃのパケットや失われたパケットの処理をする必要があるという。そうした通話の10分の1で、音声の8%以上が失われてしまう。

問題を解決するためにグーグルのチームは、同社のAI子会社であるディープマインド（DeepMind）が開発したテキストからリアルなスピーチを生成できるニューラル・ネットワークを発展させた。「ウェーブネットEQ（WaveNetEQ）」と呼ばれるこの新たなニューラル・ネットワークは、48の異なる言語それぞれで人間の声を100個録音した大規模なデータセットで訓練。訓練は、スピーチの短い部分を、人々の一般的な話し方のパターンに基づいてオートコンプリート（自動補完）できるようになるまで実施された。デュオは端末で通話を暗号化・復号化するため、ウェーブネットEQによる処理はクラウドではなくデバイス上で実行される。通話中、ウェーブネットEQは話者の声の特徴を学習し、発話スタイルと話している内容の両方に合った音声のスニペットを生成できるようにする。パケットが届かなかった場合には、その個所にAIで生成した音声が挿入される仕組み。

現時点では、ウェーブネットEQは単語やフレーズではなく、音節のみしか生成できない。しかし、グーグルがオンラインで公開した短いサンプルから判断すると、結果はかなり本物そっくりになりそうだ。1つの例では、ウェーブネットEQは男性の話者を正確に模倣した声で「トラブル（trouble）」という単語の第2音節を置き換えている。

ウィル・ダグラス・ヘブン [Will Douglas Heaven] 2020.04.08, 6:52

MITTRが選んだ世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か？これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ