KADOKAWA Technology Review
×
【3/14東京開催】若手研究者のキャリアを語り合う無料イベント 参加者募集中
AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
Stephanie Arnett/MITTR | iStock
人工知能(AI) Insider Online限定
Text-to-image AI models can be tricked into generating disturbing images

AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法

文章・画像生成AIモデルは基本的に、暴力やヌードなどの有害な画像を生成しないようにポリシーで定められている。だが、「スニーキープロンプト」と呼ばれる新たな脱獄手法で、これらのモデルが生成しないはずの画像を作れることが実証された。 by Rhiannon Williams2023.11.21

テキストから画像を生成する人気の文章・画像生成人工知能(AI)モデルに、自らの安全フィルターを無視して有害な画像を生成するように仕向けられることがわかった。

ある研究チームが、スタビリティAI(Stability AI)の「ステーブル・ディフュージョン(Stable Diffusion)」、およびオープンAI(OpenAI)の「DALL-E(ダリー)2」の文章・画像生成AIモデルの両方に、それぞれが設定しているポリシーを無視させ、裸の人々やバラバラにされた死体、その他の暴力的・性的なシナリオの画像を作成させることに成功した。

2024年5月に開催される「セキュリティとプライバシーに関するIEEE シンポジウム(IEEE Symposium on Security and Privacy)」で発表される予定のこの研究は、生成AI(ジェネレーティブAI)モデルに自身のガイドラインやポリシーを無視させる「脱獄(ジェイルブレイク)」と呼ばれる行為が、いかに簡単かということに光を当てている。また、それらのモデルがそのようなコンテンツを生成するのを防ぐことの難しさも実証していると、カーネギーメロン大学のジーコ・コルター准教授は言う。モデルの訓練に使用された膨大なデータの中に、有害なコンテンツが含まれているからだ。コルター准教授は今年、「チャットGPT(ChatGPT)」で同じような形の脱獄ができることを実証したが、今回の研究には関わっていない。

「セキュリティ上の欠陥が知られているソフトウェアやツールを、より大規模なソフトウェアシステムにリリースする際には、潜在的なリスクを考慮しなければなりません」と、コルター准教授は言う。

主要な生成AIモデルにはすべて、ユーザーがポルノ画像や暴力的な画像、その他の不適切な画像の生成を指示するのを防ぐための安全フィルターが備わっている。それらのモデルは、「裸」「殺人」「セクシー」などのセンシティブな用語を含むプロンプト(指示テキスト)からは、画像を生成しない。

しかし、ジョンズ・ホプキンス大学とデューク大学のクリエイターたちによって「スニーキープロンプト(SneakyPrompt)」と名付けられたこの新しい脱獄手法は、強化学習を利用し、人間には意味不明で無意味なように見えるが、学習済みのAIモデルには、有害画像を生成する暗黙の要求と認識されるように書かれたプロンプトを作成する。これは本質的に、文章・画像生成AIモデルの機能を逆手に取るものだ。

文章・画像生成AIモデルは、テキストベースのリクエストを単語や文字の羅列に分解してトークンに変換し、プロンプトから与えられた命令を処理する。スニーキープロンプトは、プロンプトのトークンに繰り返し微調整を加え、モデルに禁止されている画像を生成させようとする。そのアプローチの調整は、成功するまで続けられる。この手法により、誰かが手作業で各エントリーを入力しなければならない場合よりも、禁止された画像をより素早く簡単に生成できるようになる。また、人間が試そうとは思わないようなエントリーも生成できる。

スニーキープロンプトは与えられたプロンプトを詳細に調べ、モデルによってブロックされることが分かっている単語を検索し、それらをトークンに変換する。次に …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. AI crawler wars threaten to make the web more closed for everyone 失われるWebの多様性——AIクローラー戦争が始まった
  2. Promotion Innovators Under 35 Japan × CROSS U 好評につき第2弾!研究者のキャリアを考える無料イベント【3/14】
  3. From COBOL to chaos: Elon Musk, DOGE, and the Evil Housekeeper Problem 米「DOGE暴走」、政府システムの脆弱性浮き彫りに
  4. What a major battery fire means for the future of energy storage 米大規模バッテリー火災、高まる安全性への懸念
  5. A new Microsoft chip could lead to more stable quantum computers マイクロソフト、初の「トポロジカル量子チップ」 安定性に強み
▼Promotion
U35イノベーターと考える 研究者のキャリア戦略 vol.2
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る