バイドゥ、音声合成の調整を深層学習で短縮しグーグルを出し抜く
バイドゥの人工知能研究所が、グーグルの子会社ディープマインドを上回る成果を発表した。グーグルの研究では実用化が難しかった音声合成の微調整を、深層学習により、人間が関わらずに数時間で完了できるようにしたのだ。 by Emerging Technology from the arXiv2017.03.09
深層学習の手法を実社会に適用する競争では、1社が独走の状態だ。グーグルの子会社であるディープマインドは、ビデオゲームや古典的ゲーム「囲碁」で人間を打ち負かせる機械の開発に強化学習を使った。さらに昨年に、グーグルの翻訳サービスがバックエンドで深層学習の手法を導入したことで、翻訳精度が劇的に改善された。
こうなると、競合他社がグーグルに追いつくため、どう奔走しているのかを見るのは興味深い。今回は「中国版グーグル」と称されることもあるインターネット検索企業バイドゥの出番だ。バイドゥは2013年に人工知能研究所をシリコンバレーに開設した。「この研究所は最近何をしているのか?」は興味深い疑問ではないだろうか。
バイドゥの人工知能研究所は、音声合成の研究を初公開した。音声を合成できるまでに必要な微調整の量をどう削減できるか、という音声合成における課題のひとつに挑んだ研究だ。バイドゥはこの点で、人間がほとんど干渉せずに済む深層学習マシンを開発し、大きな飛躍を遂げた。ほとんど、あるいはまったく人間が干渉することなく、わずか数時間で話すことを学習できるテキスト読み上げ(Text-to-Speech)システム「ディープ・ボイス」を成果として発表したのだ。
まず、いくつかの背景について説明しておこう。テキスト読み上げシステムは、案内アプリや音声時計、電話応答システムなど、私たちの日常にありふれている。ただし、従来の音声合成システムは、ひとりの人物の話す言葉を録音して巨大データベースを作り、発声を組み替えて新しいフレーズを作る方法で開発されてきた。
従来型システムには、新しい話し手への切り替えや音声データベースを完全に新しく作り替えずに語勢を変えにくいのが難点だった。そこでコンピューター科学者は、必要なときにゼロからリアルタイムで音声を合成することを目標に、別の手法に取り組んできた。
昨年、グーグル子会社ディープマインドは、この研究領域で重大な飛躍を果たした。ディープマインドは、実際の会話の …
- 人気の記事ランキング
-
- This scientist rewarmed and studied pieces of his friend’s cryopreserved brain 10年冷凍保存の脳は「驚くほど良好」——蘇生は「まったく別の話」
- Future AI chips could be built on glass AIチップの熱問題、解決策は「ガラス」 年内に商業生産へ
- What do new nuclear reactors mean for waste? 新型原子炉が続々登場、核廃棄物管理の「手引き」は書き直せるか
- The Pentagon is planning for AI companies to train on classified data, defense official says 【独自】米国防総省、軍事機密データでAIモデルの訓練を計画