AI生成テキストを見抜く「電子透かし」、グーグルが無償公開

グーグル・ディープマインド（Google DeepMind）は、人工知能（AI）が生成したテキスト（文章）を識別するための電子透かしツールを開発し、オープンソースとして公開した。

「シンスID（SynthID）」と呼ばれるこのツールは、生成AIの出力に電子透かしを入れるファミリー製品の一部である。同社は昨年、画像向けの電子透かしを発表し、その後、AIが生成した動画向けの電子透かしも提供した。今年5月には、シンスIDをジェミニ（Gemini）アプリとオンライン・チャットボットに導入し、AIデータセットとモデルの公開リポジトリであるハギング・フェイス（Hugging Face）で無料で使用できるようにすると発表した。コンテンツがAI生成によって生成されたものかどうかを判別するための重要なツールとして登場した電子透かしは、誤情報の拡散などの有害な影響に対抗する手段として期待されている。

「これからは、他の生成AI開発者もこの技術を利用して、テキスト出力が自身の大規模言語モデルによるものかどうか検知できるようになります。より多くの開発者が責任を持ってAIを構築しやすくなります」。グーグル・ディープマインドの研究担当副社長、プッシュミート・コーリはこう話す。

シンスIDは、AIモデルがテキストを生成する際に、そのテキストの中に直接目に見えない電子透かしを付加する仕組みだ。大規模言語モデルは、テキストを「トークン」に分解し、どのトークンが他のトークンの次に来る可能性が高いか予測することで機能する。トークンは単一の文字でも、単語でも、またはフレーズの一部でもよく、それぞれが文中で他のトークンに続く適切なものである可能性を示すパーセンテージ・スコアを取得する。パーセンテージが高いほど、そのトークンが選ばれる可能性が高くなる。

コーリ副社長の説明によると、シンスIDは、生成の時点でトークンが生成される確率を調整することによって、追加情報を付加しているという。シンスIDは電子透かしを検出し、電子透かし入りテキストと電子透かし無しテキストに含まれる言葉の予想確率スコアを比較。テキストがAIツールによって生成されたものかどうか判別する。

グーグル・ディープマインドは、シンスIDの電子透かしを使用しても、生成される文書の品質や正確性、創造性、速度が損なわれることがないことを確認した。この結論は、同社が電子透かしをジェミニ製品に導入した後、数百万人の利用者による大規模な実験によって導き出されたものだ。ジェミニには、ユーザーはAIモデルの応答品質について「いいね」や「よくない」で評価できる仕組みがある。

コーリ副社長らのチームは、電子透かし入りと電子透かし無しのチャットボットの応答約2000万件のスコアを分析した。その結果、ユーザーは両者の品質と有用性の違いを感じていなかったことが分かった。実験の結果は、10月23日にネイチャー（Nature）誌に掲載された論文に詳しく記載されている。現在、テキスト向けのシンスIDはグーグルのモデルで生成されたコンテンツでのみ機能するが、オープンソース化によって、互換ツールの開発が進むことが期待される。

シンスIDにはいくつかの制限がある。電子透かしは、テキストの切り取りや軽度の編集や書き換えなど、ある程度の改ざんには耐性があったが、AIが生成したテキストが書き換えられたり、ある言語から別の言語に翻訳されたりした場合は信頼性が低くなる。また、「フランスの首都は？」など、事実に関する情報を尋ねるプロンプトに対する応答の信頼性も低い。これは、対抗する事実がなく、文中で次に来る単語の可能性を調整する機会が少なくなるためだ。

「AIが生成したテキストに信頼性が高く目立たない電子透かしを入れることは、特に事実に関する質問やコード生成のタスクなど、大規模言語モデルによる出力がほぼ一意に導かれるようなシナリオでは、基本的に難しいです」。AI向け電子透かしの脆弱性を研究するメリーランド大学のソヘイル・フェイジ准教授は語る。

フェイジ准教授は、グーグル・ディープマインドが電子透かしの手法をオープンソース化する決定をしたことは、AIコミュニティにとって前向きな一歩だと語る。「これにより、コミュニティはこれらの検出ツールを試用して様々な設定で堅牢性を評価でき、その技術の限界をより深く理解できるようになるでしょう」。

別のメリットもあると語るのは、ハギング・フェイスの機械学習エンジニアであるホアン・ガンテだ。ツールのオープンソース化によって、誰でもコードを入手して特別な制約もなく自身のモデルに電子透かしを組み込めるようになり、所有者だけが暗号の秘密を知ることになるため、透かしのプライバシーが向上する。

「アクセシビリティが向上し、その能力を確認できるようになることで、電子透かしが標準となり、悪意ある言語モデル使用の検出に役立つようになることを期待したいです」。

しかし、電子透かしは万能の解決策ではない。ハギング・フェイスの国際政策責任者であるアイリーン・ソレイマンは言う。

「多くの補完的安全対策を必要とするエコシステムにおいて、電子透かしは、より安全なモデルの1つの側面に過ぎません。また同様に、人間が作成したコンテンツであっても、ファクトチェックの効果にはバラつきがあります」。

Google DeepMind is making its AI text watermark open source AI生成テキストを見抜く「電子透かし」、グーグルが無償公開