LLMs become more covertly racist with human intervention

LLMに「隠れ人種差別」、アライメントによる是正に限界

大規模言語モデル（LLM）には人種的なバイアスが含まれている。テック企業はバイアスを是正するために手作業でフィードバック訓練を実施しているが、効果は限定的であり、モデルが大規模になるにつれてバイアスは悪化することがわかった。 by James O'Donnell2024.03.27

チャットGPT（ChatGPT）のような大規模言語モデル（LLM）は、訓練に用いるインターネット上の何百万ものページから人種差別的な見解を吸収している。そのことは、LLMの登場以来、すっと明らかだったことだ。開発者たちはその有害性を軽減することで、この問題に対応しようとしてきた。しかし、新たな研究によると、こうした取り組みは、あからさまな人種差別的見解を抑制しているに過ぎず、その一方で、「隠れステレオタイプ」をより強く、より見えにくくしている。そして、こうしたバイアス（偏見）はモデルの規模が大きくなるにつれて顕著になるという。

研究チームは、オープンAI（OpenAI）のGPT-4、フェイスブックやグーグルの旧モデルを含む5つの人工知能（AI）モデルに、アフリカ系アメリカ人英語（AAE）を使う話者についての判断を求めた。その際、話者の人種については指示で言及しなかった。

すると、2つの文章が同じ意味であったとしても、AIモデルは標準アメリカ英語（SAE）話者よりも、AAE話者に「汚い」「怠惰な」「愚かな」といった形容詞を当てはめる傾向が強かった。AIモデルは、AAE話者をより地位の低い仕事（あるいは無職）と関連付け、仮想の刑事被告人について判決を下すよう求められると、AAE話者に対しては死刑を推奨する傾向が強かった。

さらに注目すべきは、こうしたバイアスを排除しようとして研究者らが実施している方法に欠陥があるという指摘かもしれない。

オープンAI、メタ、グーグルなどの企業は、憎悪的な見解をモデルから排除するため、人間が手作業で、特定のプロンプト（指示テキスト）に対するモデルの反応方法を調整するフィードバック訓練を実施している。このプロセスはしばしば「アライメント」と呼ばれ、ニューラル・ネットワークの何百万もの接続を再調整し、モデルをより望ましい価値観に適合させることを目的としている。

アライメントは、あからさまなステレオタイプに対抗するのに有効で、大手企業各社は10年近くこの手法を採用してきた。今回の研究によれば、たとえばGPT-2に黒人に関するステレオタイプを挙げるように指示した場合、「疑わしい」「過激」「攻撃的」などを挙げる可能性が高かったが、GPT-4の場合、もはやそのような関連付けはしないという。

しかし、この手法は、アーカイブ（arXiv）で公開された未査読の本研究によると、AAEを使用した際に見られた隠れステレオタイプを排除することには失敗している。これは、これらの企業が方言による偏見をあまり問題視してこなかったためだという。あからさまに人種差別的な質問に反応しないようにモデルを指導するのは、ある方言全体に否定的な反応をしないように指導するよりも簡単である。

「フィードバック訓練は、人種差別を考慮するようにモデルに教えます」。アレンAI研究所（Allen Institute for AI）の研究者で、この論文の共著者であるヴァレンティン・ホフマンは話す。「しかし、方言による偏見はより深いレベルのものです」。

ハギング・フェイス（Hugging Face）の倫理研究者で、この研究には関与していないアビジット・ゴーシュ博士は、この発見はバイアスを解決するために企業がとっているアプローチに疑問を投げかけるものだと言う。

「モデルが人種差別的な出力をしないようにするアライメントは、簡単に破られる薄っぺらなフィルターに過ぎません」とゴーシュ博士は話す。

さらに、モデルの規模が大きくなるにつれて、隠れステレオタイプも強まることが今回の研究で明らかになった。この発見は、より大規模なモデルをリリースしようと競争するオープンAI、メタ、グーグルのようなチャットボット・メーカーに潜在的な警告を提供している。モデルは一般的に、訓練用データの量やパラメーターの数が増えるにつれて、より強力になり、表現力が増す。しかし、それによって隠れ人種バイアスが悪化するのであれば、企業はそれに対抗するためのより良いツールを開発する必要があるだろう。訓練用データにAAEを追加したり、フィードバック訓練をより強固なものにしたりするだけで、十分なのかどうかはまだ明らかではない。

「このことは、企業がどの程度、最近の記者や論文が次々と取り上げるバイアスを、その場しのぎのモグラ叩きで是正しようとしているだけなのかを明らかにしています」と、スタンフォード大学の大学院博士課程生で、この研究の共著者であるプラティウシャ・リア・カルリは話す。「隠れバイアスは、この手法の合理的なアプローチとしての妥当性を脅かすものです」。

論文の著者たちは、人種バイアスの潜在的な意味を説明するために、非常に極端な例を用いている。たとえば、被告に死刑判決を下すべきかどうかをAIに判断させるような例だ。しかし、ゴーシュ博士は、重要な決定を下すためにAIモデルを使用することはSFではないと指摘する。それは、現実に起こっていることなのだ。

米国では亡命申請の評価にAIによる翻訳ツールが使われており、十代の若者に執行猶予を与えるべきかどうかの判断に犯罪予測ソフトウェアが使われている。チャットGPTを使って応募書類を審査する雇用主は、人種やジェンダーで候補者の名前を差別しているかもしれないし、応募者がソーシャルメディアに書き込んだ内容を分析するモデルを使えば、AAEに対するバイアスが誤った判断につながる可能性がある。

「研究の著者たちは、LLMに候補者を選ばせたり、刑事事件を裁かせたりする使用例は、あくまでも作られた演習であると謙虚に主張しています」とゴーシュ博士は言う。「しかし、彼らの懸念は的を得ていると思います」。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。