AIの訓練に使われたかどうかを判別、「トラップ」ツールが登場

生成AIブームが始まって以来ずっと、コンテンツ制作者たちは、自分たちの作品が同意なしに人工知能（AI）モデルにスクレイピングされていると主張してきた。とはいえ、特定のテキストが実際に訓練用のデータセットに使われたかどうかを把握することは、これまで困難だった。

だが、スクレイピングを証明する新たな方法が登場した。インペリアル・カレッジ・ロンドンのチームが開発した「著作権トラップ（copyright trap）」は、作家や出版社が作品に巧妙に「印」をつけることで、その作品がAIモデルの訓練に使用されているかどうかを後で検出できるようにする、隠しテキストの断片である。このアイデアは、歴史的に著作権者によって使われてきたトラップ（罠）であり、地図に偽の場所を含めたり、辞書に偽の単語を記載したりする戦略に似ている。

このような対AI著作権トラップは、AIをめぐる最大の争いのひとつに切り込んでいる。多くの出版社や作家は、自分たちの知的財産が許可なくAIの訓練用データセットにスクレイピングされたとして、テック企業を相手取り訴訟を起こしている真っ最中だ。ニューヨーク・タイムズがオープンAI（OpenAI）に対して起こしている訴訟は、その中でも最も注目されているものだろう。

トラップを生成・検出するコードは、現在ギットハブ（GitHub）で公開されているが、インペリアル・カレッジ・ロンドンのチームは、さらに作家や出版社が自ら著作権トラップを生成・挿入できるツールの構築を意図している。

インペリアル・カレッジ・ロンドンで応用数学とコンピューター科学を専門とし、今回の研究を率いたイブ・アレキサンダー・デモントジョイ准教授は、「どのコンテンツがモデルの訓練に使われているかという点で、透明性が完全に欠如しており、このことがAI企業とコンテンツ制作者の間の適切なバランスを見つける妨げとなっています」と言う。この研究は、7月第4週にウィーンで開催されたAIのトップカンファレンス「機械学習に関する国際会議（ICML：International Conference on Machine Learning）」で発表された。

研究チームは、単語ジェネレーターを使って何千もの合成文を作り、トラップを作成した。それらは長く意味不明なもので、例えば次のような文章となっている。

「When in comes times of turmoil … whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still.（混乱の時代になると…販売されているものと、より重要なのはタイミングが最善で、このリストは、あなたの誰が木曜の夜に営業しており、隣人から彼らの通常販売時間と他の営業時間を教えてくれる。あなたはまだ。）」

研究チームは100種類のトラップ文章を生成し、無作為に1つを選んでテキストに何度も挿入したと、デモントジョイ准教授は説明する。トラップはいろいろな方法でテキストに挿入できる。たとえば、白い背景に白いテキストとして、あるいは記事のソースコードに埋め込むといった具合だ。この文章はテキスト内で100回から1000回繰り返される必要があった。

トラップを検出するために、研究チームは生成した100種類の合成文を大規模言語モデルに入力し、それら文章が新しいものとしてフラグ付けされるかどうかを調べた。もしモデルが訓練データの中にトラップ文を発見すれば、「サプライズ」（「当惑度」とも呼ばれる）スコアは低くなる。しかし、モデルが文に対して「サプライズ」を示した場合、それは初めて遭遇した文であり、したがってその文はトラップではないことを意味する。

過去に研究者たちは、言語モデルが訓練データを記憶しているという事実を逆手に取って、そのデータに何かが出現したかどうかを判断することを提案してきた。「メンバーシップ推論攻撃」と呼ばれるこの手法は、訓練中に多くのデータを記憶する傾向にある大規模な最新モデルでは効果的に機能する。

それとは対照的に、モバイルデバイスで実行可能で人気が高まっている小規模なモデルは、記憶量が少ないためメンバーシップ推論攻撃の影響を受けにくい。そのため、特定の著作権文書で訓練されたかどうかを判断するのが難しくなると、ウォータールー大学でコンピューター科学の助教授を務めるゴータム・カマスは言う（同助教授はこの研究には参加していない）。

著作権トラップは、より小規模なモデルに対してもメンバーシップ推論攻撃ができるようにする。研究チームは、「クロワッサンLLM（Croissant LLM）」の訓練用データセットにトラップを仕込んだ。クロワッサンLLMは、産学協同研究者チームによってゼロから訓練されたフランス語と英語の新しいバイリンガル言語モデルで、インペリアル・カレッジ・ロンドンのチームもパートナーとして参加している。クロワッサンLLMのパラメータは13億個で、最先端のモデル（たとえば、GPT-4は1兆7600億個であると言われている）と比べるとごくわずかである。

今回の研究は、テキストデータにこのようなトラップを導入することで、より小規模なモデルであってもメンバーシップ推論攻撃の有効性を大幅に高めることが実際に可能だということを示していると、カマス助教授は言う。一方で、まだやるべきことはたくさんあると同助教授は付け加える。

文書内で75語のフレーズを1000回繰り返すことは、元のテキストに大きな変更を加えることになる。そのため、AIモデルの訓練を実行する者がトラップを検出し、そのフレーズを含むコンテンツをスキップしたり、あるいはそのフレーズだけを削除したりして、残りのテキストで訓練を実行することが可能になるとカマス助教授は話す。また、元のテキストが読みにくくなってしまう。

このことから著作権トラップは今のところ実用的ではないと、カリフォルニア大学アーバイン校でコンピューター科学の教授を務め、スタートアップ企業スピッフィーAI（Spiffy AI）の共同創業者であるサミール・シンは語る（シン教授は今回の研究には参加していない）。「多くの企業は重複排除をしています。つまり、データをクリーンアップして、こういった類のトラップはまとめて除外されることになります」とシン教授は話す。

カマス助教授は、著作権トラップを改善する方法のひとつは、著作権で保護されたコンテンツに対してメンバーシップ推論攻撃がうまく機能するように、マークする別の方法を見つけるか、メンバーシップ推論攻撃そのものを改善することだろうという。

デモントジョイ准教授は、トラップが確実なものではないことを認めている。そして、トラップについて知っている攻撃者は、その気になればトラップを取り除くことができると話す。

「トラップをすべて取り除けるかどうかは議論の余地がありますが、いずれにしてもいたちごっこになりそうです」と同准教授は話す。しかしそうなったとしても、トラップの数が増えれば増えるほど、多大な技術的リソースなしにトラップをすべて取り除くことはより難しくなる。

「著作権トラップは当座の解決策に過ぎず、モデルを訓練する者にとっては単なる煩わしいものに過ぎないであろうことを肝に銘じておくことが重要です」とカマス助教授は言う。「トラップを含むコンテンツをリリースしたところで、それが永遠に有効なトラップになるという保証はありません」。

A new tool for copyright holders can show if their work is in AI training data AIの訓練に使われたかどうかを判別、「トラップ」ツールが登場