KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法
Stephanie Arnett/MIT Technology Review | Rawpixel
人工知能(AI) 無料会員限定
Anthropic has a new way to protect large language models against jailbreaks

LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法

アンソロピックが、大規模言語モデルの不正利用を防ぐ新手法を開発した。悪意ある指示への応答を遮断する防御壁により、「脱獄」の成功率を86%から4.4%に抑制することに成功している。 by Will Douglas Heaven2025.02.05

この記事の3つのポイント
  1. AI言語モデルを使った新防御壁で「脱獄」成功率を86%から4.4%に低減
  2. バグ報奨金で183人が3000時間攻撃を試みるも突破できず防御力を実証
  3. 完全な防御は不可能だが、必要な労力を増やすことで実用的な抑止力に
summarized by Claude 3

人工知能(AI)企業のアンソロピック(Anthropic)は、「脱獄(ジェイルブレイク)」と呼ばれる一般的な攻撃に対する新たな防御策を開発した。脱獄とは、大規模言語モデル(LLM:Large Language Model)を巧妙にだまして、武器の作成支援などの本来は禁止されている行為をLLMに実行させる手法である。

アンソロピックが新たに開発した手法は、脱獄に対するこれまでで最も強力な防御策になるかもしれない。「これは、有害な問い合わせを遮断する技術の最先端にあります」。カーネギーメロン大学でLLMの脱獄を研究しているアレックス・ロビー博士研究員は言う。

ほとんどのLLMは、開発者が回答させたくない質問を拒否するよう訓練されている。たとえば、アンソロピックのLLM「Claude(クロード)」であれば化学兵器に関する問い合わせを拒否するし、中国のAI企業ディープシーク(DeepSeek)のLLM「DeepSeek-R1(ディープシーク)」であれば中国の政治に関する質問を拒否する、といった具合だ。

しかし、特定のプロンプト(指示テキスト)や一連のプロンプトを使用することで、LLMに意図しない挙動を取らせることができる。脱獄手法の中には、モデルに組み込まれたセーフガードを回避する特定のキャラクターを演じさせるものや、標準とは異なる大文字の使用、特定の文字を数字に置き換えるなど、プロンプトの形式を操作するものもある。

ニューラル・ネットワークにおけるこの脆弱性は、少なくとも2013年にイリヤ・サツケバー(オープンAI共同創業者)らが初めて指摘して以来、研究対象となってきた。しかし、10年以上にわたる研究にもかかわらず、脱獄に対して完全に耐性を持つモデルを構築する方法は未だに確立されていない。

アンソロピックは、モデル自体を修正するのではなく、脱獄の試みを遮断し、不要な応答がモデルから出力されるのを防ぐ防御壁を開発した。

特にアンソロピックは、科学分野の学部生のように基本的な技術スキルを持つ人々が、化学兵器、生物兵器、核兵器の製造、取得、配備をする際にLLMが支援する可能性を懸念している。

アンソロピックは、「普遍的脱獄(universal jailbreak)」と呼ぶ手法に焦点を当てた。この脱獄手法は「Do Anything Now(今すぐ何でもする)」とも呼ばれ、モデルにすべての防御策を放棄させることができる。例えば、攻撃用プロンプ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  2. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  3. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
  4. Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る