LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身

How OpenAI stress-tests its large language models LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身

大規模言語モデル(LLM)は、差別的な発言や暴力的な回答を出力することがある。チャットGPTの開発元であるオープンAIは、LLMの有害な振る舞いを防ぐために実施している安全性テストの手法を一部公表した。 by Will Douglas Heaven2024.11.27

オープンAI(OpenAI)が再び、自社の安全性テストのプロセスについて(ほんの少し)明らかにしている。同社は10月に、チャットGPT(ChatGPT)がユーザーの名前に基づいて、どれくらいの頻度でジェンダーや人種に関する有害な固定概念を生み出すかを調べた研究結果を発表した。そして今回、潜在的に有害な振る舞い、あるいはその他の望ましくない振る舞いを特定するために、自社の強力な大規模言語モデル(LLM)にどのようなストレステストをしているか説明する、2つの研究論文を発表した。このようなテスト手法は、レッドチーミング(red-teaming)という名称で知られている。

大規模言語モデルは現在、何百万人もの人々によってさまざまなことに利用されている。しかし、オープンAI自身が指摘しているように、それらのモデルは人種差別的、女性蔑視的、憎悪的なコンテンツを生成したり、個人情報を暴露したり、偏見や固定概念を増幅したり、ものごとをでっち上げたりすることで知られている。同社は、そのような振る舞いを最小限に抑えるためにしていることを共有したいと考えている。

1つ目の論文では、オープンAIが社外の人間による広範なテスターのネットワークに指示して、モデルのリリース前にその振る舞いを入念にテストする方法を説明している。2つ目の論文は、GPT-4のような大規模言語モデルを使って、自社自身のガードレール(安全確保措置)を迂回するための新しい方法を見つけ出すことにより、テストプロセスの一部を自動化する新しい方法を紹介している。

オープンAIはこの2つの手法を組み合わせることで、人間のテスターが発見した望ましくない振る舞いを人工知能(AI)に引き渡してさらに詳しく調査させたり、その逆の流れで人間のテスターが詳しく調査したりすることを目指している。自動化されたレッドチーミングは、多数のさまざまな振る舞いを見つけ出すことができるが、人間のテスターはより多様な視点をもたらすと、オープンAIの研究者ラマ・アーマッドは言う。「互いを補完し合う方法については、まだ考案中です」。

レッドチーミングは新しい手法ではない。AI企業各社はこの手法をサイバーセキュリティの分野で、人々のチームが大規模なコンピューターシステムの脆弱性を見つけようとする目的で利用してきた。オープンAIが初めてこの手法を使ったのは、ダリー2(DALL-E 2)のテストをしていた2022年のことだ。「人々がかなり利用しやすいような製品をオープンAIがリリースしたのは、初めてでした」と、アーマッドは言う。「私たちは、人々がどのようにこのシステムとやり取りし、その過程でどのようなリスクが表面化する可能性があるか理解することが、本当に重要であると考えました」 。

それ以来、レッドチーミングはAI業界の主流となってきた。バイデン大統領はAIに関する大統領令で昨年、米国国立標準技術研究所(NIST)にレッドチーミングのベストプラクティスを定義する任務を課した。その任務を実行するため、NISTはおそらくトップクラスのAI研究所に指導を求めることになるだろう。

チャットGPTをだます

テスターを採用する際、オープンAIはアーティストから、科学者、法律・医学・地方政治に詳しい人々まで、さまざまな専門家を利用する。オープンAIはそれらのテスターを招聘して、モデルが壊れるまでいじり回してもらう。 その目的は、新たな望ましくない振る舞いを明らかにし、既存のガードレールを迂回する方法を探すことだ。たとえば、チャットGPTをだまして人種差別的な発言をさせたり、ダリーをだまして露骨な暴力画像を生成させたりする。

モデルに新しい機能を追加すると、あらゆる種類の新しい振る舞いも取り込まれてしまう可能性があり、調査が必要になる。オープンAIがGPT-4oに音声機能を追加し、ユーザーがチャットGPTに話しかけたり、チャットGPTが話し返したりできるようにしたとき、レッドチー …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。