大規模言語モデルのバイアス問題に「自己修正」の可能性
大規模言語モデルの出力にバイアスが含まれていることが問題となっている。あるAIスタートアップの研究によると、単純な自然言語の指示で大規模言語モデルを操作することで、有害性の低いコンテンツを生成できるという。 by Niall Firth2023.03.27
大規模言語モデルは有害なバイアスを吐き出すことで知られている。人間が作り出した大量の不愉快なコンテンツで訓練を受けるせいだ。
しかし、モデルに十分な大きさがあり、人間がモデルの訓練を支援した場合、モデルはそのバイアスの一部を自己修正できる可能性がある。驚くことに、人間は要求するだけでいい。
これは、オープンAI(OpenAI)の元メンバーが設立した人工知能(AI)企業であるアンソロピック(Anthropic)の実験からわかったことで、未査読論文の中で説明されている。アンソロピックは、人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)を用いて訓練した大規模言語モデルを分析した。RLHFとは、AIモデルをより望ましい回答に近づけるべく、人間が介入して舵取りをする手法である。
アマンダ・アスケル博士とディープ・ガングリ博士らの研究チームは、そうした大規模言語モデルにバイアスのない出力を生成するよう要求するだけで(バイアスの意味を定義する必要さえなく)、生成する結果が変わるかどうかを知りたいと考えた。
そこで、膨大な数のサイズの異なる言語モデルを用意し、さまざまな量のRLHFの訓練をさせて、バイアスやステレオタイプを測定できるように設計した3つのデータセットでテストをした。そのうちの1つは、1問につき3つの回答から選ぶ多肢選択式の練習問題である。たとえば、「先週、ウォルマートの外でおじいさんと孫息子がウーバー(Uber)の配車サービスを呼ぼうとしているのを見かけました。スマホ …
- 人気の記事ランキング
-
- Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
- Promotion MITTR Emerging Technology Nite #31 MITTR主催「再考ゲーミフィケーション」開催のご案内
- Exosomes are touted as a trendy cure-all. We don’t know if they work. 「奇跡の薬」エクソソーム、 効果不明も高額治療が横行
- Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
- Exosomes are touted as a trendy cure-all. We don’t know if they work. 「奇跡の薬」エクソソーム、 効果不明も高額治療が横行