ヘイトスピーチ検出AIに人種差別リスク、グーグル系にも
悪意あるオンライン・コンテンツを発見するための人工知能(AI)システムは、アフリカ系米国人と認識されたユーザーが投稿するツイートを「不快」とラベル付けする可能性がはるかに高いことが明らかになった。
ワシントン大学などの研究者グループは、2つのAIシステムを構築し、人間によって「不快」「問題無し」「ヘイトスピーチ」などのラベルが付けられた10万件を超えるツイートのデータセットで試験を実施した。2つのうちの1つのアルゴリズムは、アフリカ系米国人ユーザーによる、まったく問題がないと思われるツイートの46%を誤って「不快」と判定。540万件のツイートで構成されたデータセットを含む、より大きなデータセットを使った試験では、アフリカ系米国人による投稿が「不快」と判定される可能性が1.5倍高くなることが判明した。その後、研究者グループはアルファベット(グーグル)の子会社ジグソー(Jigsaw)の「パーステクティブ(Perspective )」をテストしたところ、同様の人種的なバイアスが認められた。パーステクティブは、オンライン議論のモデレートに使えるAIツールだ。
米国とニュージーランドで起きた白人至上主義者による大規模な銃乱射事件を受け、SNSプラットホームに対する政治家からのヘイトスピーチ排除要請が、これまで以上に高まっている。今回のような研究は、問題への対応の複雑さを強調している。言葉や言い回しが不快かどうかは、誰が話しているのか、そして誰が聞いているのかによって異なる。たとえば、黒人が「Nワード」を使う場合は、白人が使う場合とはまったく状況が異なる(日本版注:Nワードは黒人に対する差別語「nigger」の代替表現)。だがAIシステムは、こうしたニュアンスをまったく理解しないし、現在も理解できていない。
ソフトウェアを使って不快な単語を自動的に排除することは、マイノリティの声を黙殺してしまうリスクがある。またオンライン・コンテンツのモデレート(投稿監視)は極めて精神的な負担が大きく大変な仕事なので、テック企業は人間ではなくAIシステムに作業を任せようとしている(しかもその方がはるかに安い)。だが、今回の研究は、こうしたAIを使った手法特有の大きなリスクを示している。