アップルやオープンAIなどのテック企業から人工知能(AI)を搭載した次世代アシスタントの発表が続き、音声AIブームが今まさに始まろうとしている。だが、これらの次世代アシスタントのデフォルト音声は、白人米国人(あるいはまれに英国人)であることが多く、間違いなく英語を話す。そして、その英語はほんの一部の英語話者を代表するものに過ぎない。英語は多くの方言やなまりがある言語であり、多くの地域や文化に広がっている。そして、英語を話さない何十億人もの人々には残念な話だが、音声AIツールの英語以外の音声の質はかなり劣る。
なぜなら、次世代アシスタントに搭載されているAIモデルの訓練に使用されたデータが限られているからだ。AI研究分野では、AIモデルの訓練に使われるデータのほとんどは、アングロサクソン系米国人の文化を反映しているインターネット上の英語データから抽出されている。しかし、この現状を変え、AI音声における透明性と多様性の向上を目指す大規模な草の根活動が進行中である。 モジラ(Mozilla)が立ち上げたプロジェクト「コモンボイス(Common Voice)」だ。
コモンボイスがこれまで7年をかけて作成してきたデータセットは、音声AIを開発したい人にとっては最も有用なリソースの1つだ。現在のAIブームのおかげもあり、ダウンロード数は急増しており、2020年の3万8500件から最近では500万件を突破した。データセットの作成は簡単ではなかった。データ収集が大勢のボランティアに依存していることがその主な理由だ。ボランティアの数も、2020年の50万人弱から2024年には90万人超へと増加している。ただ、モジラがコモンボイスのデータを無償提供することで、実質的にボランティアに巨大テック企業への無償労働を促しているのではないか、と指摘する声もある。
2017年以来、コモンボイス・プロジェクトのボランティアは、ロシア語、カタロニア語、マラーティー語などの多様な約180言語で、合計3万1000時間の音声データを収集してきた。あなたが使ったことがある音声AIサービスは、少なくとも部分的にはコモンボイスで訓練された可能性が高い。
モジラの目的は崇高なものだ。AIが私たちの生活やコミュニケーション方法にますます組み込まれるにつれて、私たちが利用するツールが私たちと同じような声を持つことが重要になってくる。AIテクノロジーはコミュニケーションの障壁を打ち破り、たとえば文字が読めない人にも説得力のある方法で情報を伝えるのに役立つだろう。しかしその一方で、英語に重点を絞ってしまうと、新たな植民地主義的な世界秩序を定着させ、言語を完全に消滅させてしまう危険性がある。
「最終的に、真の意味でマルチモーダルで多言語の高性能翻訳モデルを作り上げ、より多言語化された世界を実現するのではなく、すべての人に英語やフランス語で操作することを強制してしまうことになるのであればとても残念です」。コモンボイス・プロジェクトで製品部門を率いるEM・ルイス・ジョンは語る。
コモンボイスはオープンソースであるため、そのデータセットの中身を誰でも見ることができ、ユーザーは無料で自由に使うことができる。このような透明性はAIデータガバナンスでは珍しい。ワシントン大学、カーネギーメロン大学、ノースウェスタン大学の共同研究によると、大規模な音声データセットのほとんどは公開されておらず、その多くはユーチューブ(YouTube)などのサイトから収集されたデータで構成されているという。
コモンボイスの言語データの大部分は、ボランティアによって収集されている。トルコの研究者であるビュレント・オズデンもそのひとりだ。2020年以来、オズデンは自分の声を無償提供するだけでなく、より多くの人々に声を提供してもらうためにコモンボイス・プロジェクトの認知度向上に取り組んできた。最近では、2か月間かかりっきりで、トルコ語のデータ修正と誤字脱字のチェックに取り組んだ。オズデンにとって、AIモデルの改善だけが作業に取り組む動機ではない。
「私は文化、特にリソースの少ない言語の保存のためにこの活動に参加しています」とオズデンは語る。また、最近、チェルケス語やザザキ語など、話者 …