KADOKAWA Technology Review
×
12/16開催 「再考ゲーミフィケーション」イベント参加受付中!
AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
Stephanie Arnett/MITTR | iStock
人工知能(AI) Insider Online限定
Text-to-image AI models can be tricked into generating disturbing images

AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法

文章・画像生成AIモデルは基本的に、暴力やヌードなどの有害な画像を生成しないようにポリシーで定められている。だが、「スニーキープロンプト」と呼ばれる新たな脱獄手法で、これらのモデルが生成しないはずの画像を作れることが実証された。 by Rhiannon Williams2023.11.21

テキストから画像を生成する人気の文章・画像生成人工知能(AI)モデルに、自らの安全フィルターを無視して有害な画像を生成するように仕向けられることがわかった。

ある研究チームが、スタビリティAI(Stability AI)の「ステーブル・ディフュージョン(Stable Diffusion)」、およびオープンAI(OpenAI)の「DALL-E(ダリー)2」の文章・画像生成AIモデルの両方に、それぞれが設定しているポリシーを無視させ、裸の人々やバラバラにされた死体、その他の暴力的・性的なシナリオの画像を作成させることに成功した。

2024年5月に開催される「セキュリティとプライバシーに関するIEEE シンポジウム(IEEE Symposium on Security and Privacy)」で発表される予定のこの研究は、生成AI(ジェネレーティブAI)モデルに自身のガイドラインやポリシーを無視させる「脱獄(ジェイルブレイク)」と呼ばれる行為が、いかに簡単かということに光を当てている。また、それらのモデルがそのようなコンテンツを生成するのを防ぐことの難しさも実証していると、カーネギーメロン大学のジーコ・コルター准教授は言う。モデルの訓練に使用された膨大なデータの中に、有害なコンテンツが含まれているからだ。コルター准教授は今年、「チャットGPT(ChatGPT)」で同じような形の脱獄ができることを実証したが、今回の研究には関わっていない。

「セキュリティ上の欠陥が知られているソフトウェアやツールを、より大規模なソフトウェアシステムにリリースする際には、潜在的なリスクを考慮しなければなりません」と、コルター准教授は言う。

主要な生成AIモデルにはすべて、ユーザーがポルノ画像や暴力的な画像、その他の不適切な画像の生成を指示するのを防ぐための安全フィルターが備わっている。それらのモデルは、「裸」「殺人」「セクシー」などのセンシティブな用語を含むプロンプト(指示テキスト)からは、画像を生成しない。

しかし、ジョンズ・ホプキンス大学とデューク大学のクリエイターたちによって「スニーキープロンプト(SneakyPrompt)」と名付けられたこの新しい脱獄手法は、強化学習を利用し、人間には意味不明で無意味なように見えるが、学習済みのAIモデルには、有害画像を生成する暗黙の要求と認識されるように書かれたプロンプトを作成する。これは本質的に、文章・画像生成AIモデルの機能を逆手に取るものだ。

文章・画像生成AIモデルは、テキストベースのリクエストを単語や文字の羅列に分解してトークンに変換し、プロンプトから与えられた命令を処理する。スニーキープロンプトは、プロンプトのトークンに繰り返し微調整を加え、モデルに禁止されている画像を生成させようとする。そのアプローチの調整は、成功するまで続けられる。この手法により、誰かが手作業で各エントリーを入力しなければならない場合よりも、禁止された画像をより素早く簡単に生成できるようになる。また、人間が試そうとは思わないようなエントリーも生成できる。

スニーキープロンプトは与えられたプロンプトを詳細に調べ、モデルによってブロックされることが分かっている単語を検索し、それらをトークンに変換する。次に …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
  2. Promotion MITTR Emerging Technology Nite #31 MITTR主催「再考ゲーミフィケーション」開催のご案内
  3. Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る