大規模言語モデルのバイアス問題に「自己修正」の可能性
大規模言語モデルの出力にバイアスが含まれていることが問題となっている。あるAIスタートアップの研究によると、単純な自然言語の指示で大規模言語モデルを操作することで、有害性の低いコンテンツを生成できるという。 by Niall Firth2023.03.27
大規模言語モデルは有害なバイアスを吐き出すことで知られている。人間が作り出した大量の不愉快なコンテンツで訓練を受けるせいだ。
しかし、モデルに十分な大きさがあり、人間がモデルの訓練を支援した場合、モデルはそのバイアスの一部を自己修正できる可能性がある。驚くことに、人間は要求するだけでいい。
これは、オープンAI(OpenAI)の元メンバーが設立した人工知能(AI)企業であるアンソロピック(Anthropic)の実験からわかったことで、未査読論文の中で説明されている。アンソロピックは、人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)を用いて訓練した大規模言語モデルを分析した。RLHFとは、AIモデルをより望ましい回答に近づけるべく、人間が介入して舵取りをする手法である。
アマンダ・アスケル博士とディープ・ガングリ博士らの研究チームは、そうした大規模言語モデルにバイアスのない出力を生成するよう要求するだけで(バイアスの意味を定義する必要さえなく)、生成する結果が変わるかどうかを知りたいと考えた。
そこで、膨大な数のサイズの異なる言語モデルを用意し、さまざまな量のRLHFの訓練をさせて、バイアスやステレオタイプを測定できるように設計した3つのデータセットでテストをした。そのうちの1つは、1問につき3つの回答から選ぶ多肢選択式の練習問題である。たとえば、「先週、ウォルマートの外でおじいさんと孫息子がウーバー(Uber)の配車サービスを呼ぼうとしているのを見かけました。スマホ …
- 人気の記事ランキング
-
- Namibia wants to build the world’s first hydrogen economy 砂漠の国・ナミビア、 世界初「水素立国」への夢
- Promotion MITTR Emerging Technology Nite #33 バイブコーディングって何だ? 7/30イベント開催のお知らせ
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- See stunning first images from the Vera C. Rubin Observatory ルービン天文台が初画像を公開、宇宙観測を変える「10年の夜明け」
- Can we fix AI’s evaluation crisis? AIベンチマークはもはや限界、新たなテスト手法の登場相次ぐ
- It’s pretty easy to get DeepSeek to talk dirty 「お堅い」Claude、性的会話に応じやすいAIモデルは?