バイドゥ、音声合成の調整を深層学習で短縮しグーグルを出し抜く
バイドゥの人工知能研究所が、グーグルの子会社ディープマインドを上回る成果を発表した。グーグルの研究では実用化が難しかった音声合成の微調整を、深層学習により、人間が関わらずに数時間で完了できるようにしたのだ。 by Emerging Technology from the arXiv2017.03.09
深層学習の手法を実社会に適用する競争では、1社が独走の状態だ。グーグルの子会社であるディープマインドは、ビデオゲームや古典的ゲーム「囲碁」で人間を打ち負かせる機械の開発に強化学習を使った。さらに昨年に、グーグルの翻訳サービスがバックエンドで深層学習の手法を導入したことで、翻訳精度が劇的に改善された。
こうなると、競合他社がグーグルに追いつくため、どう奔走しているのかを見るのは興味深い。今回は「中国版グーグル」と称されることもあるインターネット検索企業バイドゥの出番だ。バイドゥは2013年に人工知能研究所をシリコンバレーに開設した。「この研究所は最近何をしているのか?」は興味深い疑問ではないだろうか。
バイドゥの人工知能研究所は、音声合成の研究を初公開した。音声を合成できるまでに必要な微調整の量をどう削減できるか、という音声合成における課題のひとつに挑んだ研究だ。バイドゥはこの点で、人間がほとんど干渉せずに済む深層学習マシンを開発し、大きな飛躍を遂げた。ほとんど、あるいはまったく人間が干渉することなく、わずか数時間で話すことを学習できるテキスト読み上げ(Text-to-Speech)システム「ディープ・ボイス」を成果として発表したのだ。
まず、いくつかの背景について説明しておこう。テキスト読み上げシステムは、案内アプリや音声時計、電話応答システムなど、私たちの日常にありふれている。ただし、従来の音声合成システムは、ひとりの人物の話す言葉を録音して巨大データベースを作り、発声を組み替えて新しいフレーズを作る方法で開発されてきた。
従来型システムには、新しい話し手への切り替えや音声データベースを完全に新しく作り替えずに語勢を変えにくいのが難点だった。そこでコンピューター科学者は、必要なときにゼロからリアルタイムで音声を合成することを目標に、別の手法に取り組んできた。
昨年、グーグル子会社ディープマインドは、この研究領域で重大な飛躍を果たした。ディープマインドは、実際の会話の …
- 人気の記事ランキング
-
- How ChatGPT search paves the way for AI agents 脱チャットGPTへ、オープンAIが強化するプラットフォーム戦略
- Promotion NIHONBASHI SPACE WEEK 2024 アジア最大級の宇宙ビジネスイベント、東京・日本橋でまもなく開催
- Promotion Innovators Under 35 Japan Summit 2024 in Nihonbashi 2024年のイノベーターが集結「U35 Summit」参加者募集中
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
- The winners of Innovators under 35 Japan 2024 have been announced MITTRが選ぶ、 日本発U35イノベーター 2024年版
- Inside a fusion energy facility 2026年の稼働目指す、コモンウェルスの核融合施設へ行ってみた