京都大学の河原達也教授の研究グループは、発言を直接書き起こして会議録を作成するシステムを開発し、90%以上の認識率を実現した。日本の衆議院は2011年、世界の議会(中央政府)で初めて自動作成システムを導入した。欧州やアジアの数カ国の議会も関心を寄せているという。国会には通常、速記者が配置されているが、自動音声認識システムに取って代わられる日も近いかもしれない。
認識率とは、完成した会議録と、書き起こしたドラフトのテキストとの整合率のことだ。音声を自動でテキスト化するには、音声とテキストの大規模なデータベース(学習コーパス)が必要。言いよどみや冗長な表現(「えー」「~ですね」など)も含めて忠実に書き起こし、音響モデルや使用頻度の高い単語列のパターン、同音異義語の使い分けなども合わせた統計的な言語モデルを構築する。研究グループは、会議録のアーカイブを用いてコーパスの作成を効率化し、認識率を向上させた。
日本の衆議院は、2005年に速記者養成所の学生募集を中止した。2011年度からは河原教授らが構築したシステムを用い、原則としてすべての本会議・委員会でマイクから収録される音声をテキスト化し、会議録作成を支援している。過去の会議録と1000時間以上の審議音声を元に音響・言語モデルを構築し、さらに深層学習を採り入れたことで、2016年には93%の認識率を実現したという。
日本語では特に多いといわれるフィラー(「えー」など、つなぎの言葉)も自動的に除去される。導入当初は懐疑的だった速記者も、現在はこのシステムがなければ仕事にならないとのこと。ただし、固有名詞や同音異義語のつづり間違いなど高度な編集は今後の課題で、完全自動化はまだ先の話。校閲者や編集者は不可欠だ。
また、2016年にはテレビ・ラジオを通じて高等教育の講義を提供する「放送大学」(The Open University of Japan)と協力し、約30の講義を対象に音声認識システムで字幕を付けた。議会と異なり、学術専門用語が多いが、科目ごとに教科書テキストから単語辞書と言語モデルを自動学習することで、こちらも約90%の認識率を達成した。
90%にどんな意味があるのか。自動字幕作成システムを使っても、一般に公開するレベルで実用化するには最終的に人の手による校閲作業が不可欠だ。研究グループの調査では、音声認識率と編集時間には高い相関関係がある。認識率が85%を下回ると理解しにくくなる一方、93%程度になると「間違い探し」のレベルになり、編集時間を3分の1短縮できたそうだ。
少なくともオランダ、タイ、韓国の国会関係者がこのシステムに関心を寄せており、河原教授の招聘や日本への視察を実施した。米国では裁判所の速記者の一部が復唱方式による音声認識を使っているが、発言を直接書き起こすシステムは今のところほとんどない。自動音声認識技術の進展に伴い、このようなシステムを導入する余地はあるかもしれない。
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
- Ayako N [Ayako N]日本版 ゲスト寄稿者
- ライター、編集者