言語処理AI(人工知能)技術はここ数年で大きく発展した。しかし実際は、最も基本的な応用分野でいまだに悪戦苦闘している。最新の研究で、科学者たちが最先端AIシステム4種類にヘイトスピーチを検出させるテストを実施したところ、4種類すべてのAIシステムが悪質な文章と問題のない文章の識別に苦労していることが明らかになった。4種類のAIシステムは、それぞれ別々の部分で苦労していたという。
とはいえ、この結果は驚くべきものではない。自然言語の微妙なニュアンスを理解するAIを開発することは難しいのだ。この研究結果において重要な点は、研究者たちが問題を精査するために採用した手法だ。彼らはヘイトスピーチが飛び出すさまざまな場面を想定して29種類のテストを開発し、具体的にどの部分でそれぞれのシステムがつまずくのかを正確に特定した。結果、システムの弱点を克服する方法を理解しやすくなったのだ。このテストはすでに、ある商用AIサービスの改善に役立っている。
オックスフォード大学とアラン・チューリング研究所の研究者らが主導した研究論文の著者らは、ネット上のヘイトスピーチ対策に取り組む16の非営利団体の職員たちにインタビューし、聞き取った内容を基にヘイトスピーチを18種類に分類した。この分類では英語の書き言葉(文書)によるヘイトスピーチに絞り、軽蔑、中傷、脅し文句などを含むものとした。彼らはまた、AIシステムに何度も誤検知を起こさせる、ヘイトスピーチに該当しない11のシナリオを特定した。問題のない発言の最中にある冒涜的な表現や、被害を受けた人たちが繰り返し発した中傷的な言葉、ヘイトスピーチを糾弾する活動において元のヘイトスピーチを引用あるいは言及する例(カウンター・スピーチ)などだ。
前述の29種の分類一つ一つに対して、研究チームは数十ずつの例文を手作りした。さらに、「私は{ 属性}が嫌い」とか「あなたは私にとって{ 中傷表現}でしかない」といったテンプレート文も用意した。米国の法律で差別の保護対象となる7つのグル …