人工知能(AI)企業のアンソロピック(Anthropic)は、「脱獄(ジェイルブレイク)」と呼ばれる一般的な攻撃に対する新たな防御策を開発した。脱獄とは、大規模言語モデル(LLM:Large Language Model)を巧妙にだまして、武器の作成支援などの本来は禁止されている行為をLLMに実行させる手法である。
アンソロピックが新たに開発した手法は、脱獄に対するこれまでで最も強力な防御策になるかもしれない。「これは、有害な問い合わせを遮断する技術の最先端にあります」。カーネギーメロン大学でLLMの脱獄を研究しているアレックス・ロビー博士研究員は言う。
ほとんどのLLMは、開発者が回答させたくない質問を拒否するよう訓練されている。たとえば、アンソロピックのLLM「Claude(クロード)」であれば化学兵器に関する問い合わせを拒否するし、中国のAI企業ディープシーク(DeepSeek)のLLM「DeepSeek-R1(ディープシーク)」であれば中国の政治に関する質問を拒否する、といった具合だ。
しかし、特定のプロンプト(指示テキスト)や一連のプロンプトを使用することで、LLMに意図しない挙動を取らせることができる。脱獄手法の中には、モデルに組み込まれたセーフガードを回避する特定のキャラクターを演じさせるものや、標準とは異なる大文字の使用、特定の文字を数字に置き換えるなど、プロンプトの形式を操作するものもある。
ニューラル・ネットワークにおけるこの脆弱性は、少なくとも2013年にイリヤ・サツケバー(オープンAI共同創業者)らが初めて指摘して以来、研究対象となってきた。しかし、10年以上にわたる研究にもかかわらず、脱獄に対して完全に耐性を持つモデルを構築する方法は未だに確立されていない。
アンソロピックは、モデル自体を修正するのではなく、脱獄の試みを遮断し、不要な応答がモデルから出力されるのを防ぐ防御壁を開発した。
特にアンソロピックは、科学分野の学部生のように基本的な技術スキルを持つ人々が、化学兵器、生物兵器、核兵器の製造、取得、配備をする際にLLMが支援する可能性を懸念している。
アンソロピックは、「普遍的脱獄(universal jailbreak)」と呼ぶ手法に焦点を当てた。この脱獄手法は「Do Anything Now(今すぐ何でもする)」とも呼ばれ、モデルにすべての防御策を放棄させることができる。例えば、攻撃用プロンプ …