KADOKAWA Technology Review
×
ニュース Insider Online限定
Baidu’s Artificial Intelligence Lab Unveils Synthetic Speech System

バイドゥ、音声合成の調整を深層学習で短縮しグーグルを出し抜く

バイドゥの人工知能研究所が、グーグルの子会社ディープマインドを上回る成果を発表した。グーグルの研究では実用化が難しかった音声合成の微調整を、深層学習により、人間が関わらずに数時間で完了できるようにしたのだ。 by Emerging Technology from the arXiv2017.03.09

深層学習の手法を実社会に適用する競争では、1社が独走の状態だ。グーグルの子会社であるディープマインドは、ビデオゲームや古典的ゲーム「囲碁」で人間を打ち負かせる機械の開発に強化学習を使った。さらに昨年に、グーグルの翻訳サービスがバックエンドで深層学習の手法を導入したことで、翻訳精度が劇的に改善された。

こうなると、競合他社がグーグルに追いつくため、どう奔走しているのかを見るのは興味深い。今回は「中国版グーグル」と称されることもあるインターネット検索企業バイドゥの出番だ。バイドゥは2013年に人工知能研究所をシリコンバレーに開設した。「この研究所は最近何をしているのか?」は興味深い疑問ではないだろうか。

バイドゥの人工知能研究所は、音声合成の研究を初公開した。音声を合成できるまでに必要な微調整の量をどう削減できるか、という音声合成における課題のひとつに挑んだ研究だ。バイドゥはこの点で、人間がほとんど干渉せずに済む深層学習マシンを開発し、大きな飛躍を遂げた。ほとんど、あるいはまったく人間が干渉することなく、わずか数時間で話すことを学習できるテキスト読み上げ(Text-to-Speech)システム「ディープ・ボイス」を成果として発表したのだ。

まず、いくつかの背景について説明しておこう。テキスト読み上げシステムは、案内アプリや音声時計、電話応答システムなど、私たちの日常にありふれている。ただし、従来の音声合成システムは、ひとりの人物の話す言葉を録音して巨大データベースを作り、発声を組み替えて新しいフレーズを作る方法で開発されてきた。

従来型システムには、新しい話し手への切り替えや音声データベースを完全に新しく作り替えずに語勢を変えにくいのが難点だった。そこでコンピューター科学者は、必要なときにゼロからリアルタイムで音声を合成することを目標に、別の手法に取り組んできた。

昨年、グーグル子会社ディープマインドは、この研究領域で重大な飛躍を果たした。ディープマインドは、実際の会話の …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. 3 things that didn’t make the 10 Breakthrough Technologies of 2025 list 2025年版「世界を変える10大技術」から漏れた候補3つ
  2. How to use Sora, OpenAI’s new video generating tool オープンAIが「Sora」を一般公開、最長20秒の動画を生成
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る