テキストから画像を生成する人気の文章・画像生成人工知能(AI)モデルに、自らの安全フィルターを無視して有害な画像を生成するように仕向けられることがわかった。
ある研究チームが、スタビリティAI(Stability AI)の「ステーブル・ディフュージョン(Stable Diffusion)」、およびオープンAI(OpenAI)の「DALL-E(ダリー)2」の文章・画像生成AIモデルの両方に、それぞれが設定しているポリシーを無視させ、裸の人々やバラバラにされた死体、その他の暴力的・性的なシナリオの画像を作成させることに成功した。
2024年5月に開催される「セキュリティとプライバシーに関するIEEE シンポジウム(IEEE Symposium on Security and Privacy)」で発表される予定のこの研究は、生成AI(ジェネレーティブAI)モデルに自身のガイドラインやポリシーを無視させる「脱獄(ジェイルブレイク)」と呼ばれる行為が、いかに簡単かということに光を当てている。また、それらのモデルがそのようなコンテンツを生成するのを防ぐことの難しさも実証していると、カーネギーメロン大学のジーコ・コルター准教授は言う。モデルの訓練に使用された膨大なデータの中に、有害なコンテンツが含まれているからだ。コルター准教授は今年、「チャットGPT(ChatGPT)」で同じような形の脱獄ができることを実証したが、今回の研究には関わっていない。
「セキュリティ上の欠陥が知られているソフトウェアやツールを、より大規模なソフトウェアシステムにリリースする際には、潜在的なリスクを考慮しなければなりません」と、コルター准教授は言う。
主要な生成AIモデルにはすべて、ユーザーがポルノ画像や暴力的な画像、その他の不適切な画像の生成を指示するのを防ぐための安全フィルターが備わっている。それらのモデルは、「裸」「殺人」「セクシー」などのセンシティブな用語を含むプロンプト(指示テキスト)からは、画像を生成しない。
しかし、ジョンズ・ホプキンス大学とデューク大学のクリエイターたちによって「スニーキープロンプト(SneakyPrompt)」と名付けられたこの新しい脱獄手法は、強化学習を利用し、人間には意味不明で無意味なように見えるが、学習済みのAIモデルには、有害画像を生成する暗黙の要求と認識されるように書かれたプロンプトを作成する。これは本質的に、文章・画像生成AIモデルの機能を逆手に取るものだ。
文章・画像生成AIモデルは、テキストベースのリクエストを単語や文字の羅列に分解してトークンに変換し、プロンプトから与えられた命令を処理する。スニーキープロンプトは、プロンプトのトークンに繰り返し微調整を加え、モデルに禁止されている画像を生成させようとする。そのアプローチの調整は、成功するまで続けられる。この手法により、誰かが手作業で各エントリーを入力しなければならない場合よりも、禁止された画像をより素早く簡単に生成できるようになる。また、人間が試そうとは思わないようなエントリーも生成できる。
スニーキープロンプトは与えられたプロンプトを詳細に調べ、モデルによってブロックされることが分かっている単語を検索し、それらをトークンに変換する。次に …