KADOKAWA Technology Review
×
AI Has Beaten Humans at Lipreading

人工知能が人間よりずっと高精度な読唇術を獲得した

人工知能を訓練すると、機会は人間よりはるかに精度の高い読唇術を獲得した。 by Jamie Condliffe2016.11.22

読唇術には熟練が必要だ。文脈や言語知識も重要だし、視覚的な手がかりから推論する能力も欠かせない。しかし、研究者によると、機械学習は、無声映像の話の内容を、読唇術のプロよりも効率的に認識できた。

オックスフォード大学コンピューター科学部のチームは、新型人工知能システム「LipNet」を開発した。Quartzの記事によれば、LipNetシステムの元になるデータセット「GRID」には、正面を向き、照明がよく当てられた状態の人物が3秒間の文を話す映像が記録されている。それぞれの文は、単語のつながりに基づいており、同じパターンの映像がGRIDに収録されている。

研究チームは、音声認識の訓練と同様に、そのデータセットでニューラル・ネットワークを訓練した。。ただしこの場合、ニューラル・ネットワークは、時間をかけて口の形のバリエーションを認識し、その情報を何が話されたか解釈することに結びつけるように学習する。人工知能(AI)は映像を細切れに分析するのではなく、3秒間の映像全体から分析した文章の文脈を解釈する。人間の声が作り出す音の数より、口の形の数のほうが少ないから、ここがシステムの重要な特徴だ。

試験結果によれば、LipNetシステムは93.4%の言葉を正確に認識できた。人間の読唇術のボランティアに同様の試験をしたところ、正確に認識できた言葉は52.3%にとどまった。

一方、ニュー・サイエンティスト誌の記事によれば、グーグル・ディープマインドと共同研究中のオックスフォード大学工学部の別のチームは、さらに難しい課題に挑んだ。GRIDのような整理された一貫性のあるデータセットを使わずに、BBCの放送から抽出した10万件の映像を使ったのだ。こちらの映像ではGRIDより多くの言語が使われ、照明や頭の位置にも、ずっと多くのバリエーションがある。

コンピューター科学部と同様の手法により、オックスフォード大学とディープマインドのチームは、すべての言葉のうち46.8%を正しく認識できるAIを開発した。人間は12.4%しか間違えずに認識できなかった。照明や顔の向き、言語の複雑性まで、精度が低い理由は明らかに数多くあるので、これはこれで高い性能といってよいだろう。

訓練データと成果に違いはあるが、どちらの実験でも、AIは人間をはるかに凌ぐ読唇術の名人であり、読唇ソフトウェアを使ったたくさんの応用を想像できる。たとえば、スカイプは騒々しい環境にいる通話者の会話を読み取って字幕を付けたり音声を合成したりしてくれるかもしれない。聴覚障害のある人がスマホを手に、会話内容を聞けるようになるかもしれない。

(関連記事:Quartz, New Scientist, Oxford Machine Learning Reading Group, arXiv, “The Challenges and Threats of Automated Lip Reading”)

人気の記事ランキング
  1. What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
  2. This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
タグ
クレジット Image courtesy of Joon Son Chung
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る