読唇術には熟練が必要だ。文脈や言語知識も重要だし、視覚的な手がかりから推論する能力も欠かせない。しかし、研究者によると、機械学習は、無声映像の話の内容を、読唇術のプロよりも効率的に認識できた。
オックスフォード大学コンピューター科学部のチームは、新型人工知能システム「LipNet」を開発した。Quartzの記事によれば、LipNetシステムの元になるデータセット「GRID」には、正面を向き、照明がよく当てられた状態の人物が3秒間の文を話す映像が記録されている。それぞれの文は、単語のつながりに基づいており、同じパターンの映像がGRIDに収録されている。
研究チームは、音声認識の訓練と同様に、そのデータセットでニューラル・ネットワークを訓練した。。ただしこの場合、ニューラル・ネットワークは、時間をかけて口の形のバリエーションを認識し、その情報を何が話されたか解釈することに結びつけるように学習する。人工知能(AI)は映像を細切れに分析するのではなく、3秒間の映像全体から分析した文章の文脈を解釈する。人間の声が作り出す音の数より、口の形の数のほうが少ないから、ここがシステムの重要な特徴だ。
試験結果によれば、LipNetシステムは93.4%の言葉を正確に認識できた。人間の読唇術のボランティアに同様の試験をしたところ、正確に認識できた言葉は52.3%にとどまった。
一方、ニュー・サイエンティスト誌の記事によれば、グーグル・ディープマインドと共同研究中のオックスフォード大学工学部の別のチームは、さらに難しい課題に挑んだ。GRIDのような整理された一貫性のあるデータセットを使わずに、BBCの放送から抽出した10万件の映像を使ったのだ。こちらの映像ではGRIDより多くの言語が使われ、照明や頭の位置にも、ずっと多くのバリエーションがある。
コンピューター科学部と同様の手法により、オックスフォード大学とディープマインドのチームは、すべての言葉のうち46.8%を正しく認識できるAIを開発した。人間は12.4%しか間違えずに認識できなかった。照明や顔の向き、言語の複雑性まで、精度が低い理由は明らかに数多くあるので、これはこれで高い性能といってよいだろう。
訓練データと成果に違いはあるが、どちらの実験でも、AIは人間をはるかに凌ぐ読唇術の名人であり、読唇ソフトウェアを使ったたくさんの応用を想像できる。たとえば、スカイプは騒々しい環境にいる通話者の会話を読み取って字幕を付けたり音声を合成したりしてくれるかもしれない。聴覚障害のある人がスマホを手に、会話内容を聞けるようになるかもしれない。
(関連記事:Quartz, New Scientist, Oxford Machine Learning Reading Group, arXiv, “The Challenges and Threats of Automated Lip Reading”)