AI-text detection tools are really easy to fool

「チャットGPT検出」は簡単に騙せる、14ツール調査で判明

チャットGPTを使って学生が課題を書き上げてしまうのではないか、との懸念が教育現場で広がっている。AI生成文書を検出すると謳うAIシステムは有効なのか？その正確さを評価した研究結果が発表された。 by Rhiannon Williams2023.07.12

「チャットGPT（ChatGPT）」がリリースされてから数週間は、学生たちがこのチャットボットを使って、まずまずの小論文を数秒で書き上げるのではないかとの懸念があった。そうした懸念に応え、いくつかのスタートアップ企業が、人間の書いた文章なのか、それとも機械が書いた文章なのか見分けられると謳う製品を作り始めた。

だが、問題がある。新しい査読前論文によれば、そうしたツールを騙して検出を回避するのは比較的簡単なのだ。

ベルリンの応用科学大学（HTW）でメディアとコンピューティングの教授を務めるデボラ・ウェーバー・ウルフは、さまざまな大学の研究者グループと協力し、「ターニティン（Turnitin）」「GPTゼロ（ GPT Zero）」「コンピラティオ（Compilatio）」など14の検出ツールについて、オープンAI（OpenAI）のチャットGPTによって書かれた文章を検出する能力を評価した。

それらのツールのほとんどは、繰り返しなどといった人工知能（AI）が生成したテキストの特徴を探し、そのテキストがAIによって生成された可能性を計算する仕組みだ。しかし、研究チームは、チャットGPTが生成した文章に人間が少しだけ手を加えたり、語句言い換えツールで難読化したりすると、評価したすべてのツールで、チャットGPTで生成された文章が検出されにくくなることを見い出した。つまり学生たちは、AIが生成する小論文に少し手を加えるだけで、検出ツールをかいくぐることができるということだ。

「これらのツールは使い物になりません」と、ウェーバー・ウルフ教授は言う。「できるとされていることをしません。AI検出器とは言えません」。

研究者たちはツールを評価するにあたって、土木工学、コンピューター科学、経済学、歴史学、言語学、文学など、さまざまなテーマについて学部レベルの短い小論文を書いた。それらの小論文は、すでにネット上に存在する文章ではないことを確実にするため、研究者たちが自ら書きおろした。同じテキストがネット上に存在した場合、すでにチャットGPTの訓練に使われている可能性があるからだ。

それから各研究者は、ボスニア語、チェコ語、ドイツ語、ラトビア語、スロバキア語、スペイン語、またはスウェーデン語で追加の文章を書いた。これらの文章は、AI翻訳ツールの「ディープL（DeepL）」か「グーグル翻訳」のいずれかを使って英語に翻訳された。

研究チームは次に、チャットGPTを使ってそれぞれ2つずつ追加で文章を生成し、AIが作成したことを隠すため文章に少し手を加えた。1つは、研究者たちが手作業で文の順序を変えたり、単語を入れ替えたりするなどの編集を加えた。もう1つは、AI語句言い換えツール「クィルボット（Quillbot）」を使って書き直した。こうして、最終的に54の文書を用意し、検出ツールのテストに使用した。

テストの結果、ツールは人間が書いた文章の識別は得意だが（平均96％の正確さ）、AIが生成したテキスト、特に編集された文章を見分けることに関しては、かなり苦戦することがわかった。それらのツールは74％の正確さでチャットGPTの文章を識別したが、チャットGPTが生成した文章に少し手が加えられている場合、42％に低下したのだ。

この種の研究は、大学が現在実施している学生の課題の評価方法が、いかに時代遅れであるかということも浮き彫りにしていると、南オーストラリア大学で機械学習とAIモデル構築を研究するヴィトミール・コヴァノヴィッチ上級講師は言う（同講師は今回のプロジェクトに関わっていない）。

やはり今回のプロジェクトには関わっていない、自然言語生成を専門とするグーグルの上級研究科学者、ダフネ・イッポリトは、別の懸念を提起する。

「自動検出システムを教育現場で採用するのであれば、そのシステムの誤検出率を把握することが極めて重要です。誤って学生を不正行為で告発してしまったら、その学生の学業キャリアに悲惨な結果をもたらしかねないからです。検出漏れの率も重要です。AIによって生成された文章が、人間が書いたものとして合格してしまうケースが多すぎるようであれば、その検出システムは役に立たないからです」。

研究者たちがテストしたツールの1つを作っている企業、コンピラティオは、自社のシステムについて、疑わしい一節を示すだけのツールであることを心に留めておくことが重要だと言う。疑わしい一節とは、盗用の可能性がある文章、またはAIによって生成された可能性のある内容として分類されるコンテンツのことである。

「実際に文書の執筆者が習得した知識であることを検証したり認めたりするのは、分析された文書に成績を付ける学校と教師の手に委ねられます。たとえば、口頭での質問や、管理された教室環境での追加質問など、追加的な調査方法を導入することが考えられます」と、コンピラティオの広報責任者は述べている。

「このように弊社のツールは、優れた研究や執筆、例証の実践について学ぶことを促す、本物の教育的アプローチの一部なのです。是正補助ツールであって、是正ツールではありません」と、同社の広報責任者は付け加えた。ターニティンとGPTゼロにもコメントを求めたが、すぐに返答はなかった。

AIが書いた文章を検出するためのツールが、必ずしも想定通りに機能しないことは、しばらく前から知られていた。オープンAIは今年、チャットGPTによって作り出された文章を検出するように設計されたツールを発表したが、AIが書いた文章を「AIが書いた可能性がある」と警告したのは26%に過ぎなかったことを認めている。オープンAIはMITテクノロジーレビューの取材に対し、同社Webサイトの教育者向けセクションを参照するよう回答した。そこには、AIが生成したコンテンツを検出するように設計されたツールは「絶対確実とは決して言えません」という警告が書かれている。

しかし、そのような不具合があっても、企業は、AIの生成した文章を検出すると謳う製品をあわてて世に出そうとするのをやめていないと、メリーランド大学のトム・ゴールドスタイン助教授は言う（同助教授も今回の研究には関与していない）。

「それらのツールの多くは非常に正確というわけではありませんが、全部が大失敗とも言えません」と、ゴールドスタイン助教授は付け加え、ターニティンの誤検出率はかなり低く、ある程度の正確さを達成できていると指摘する。また、いわゆるAIテキスト検出システムの弱点に光を当てる研究は非常に重要だが、研究対象をチャットGPT以外のAIツールにも拡大したことも有益であっただろうと、AIスタートアップ企業であるハギング・フェイス（Hugging Face）の研究者、サーシャ・ルッチョーニ博士は言う。

コヴァノヴィッチ上級講師の考えでは、AIが書いた文章を見破ろうというアイデアそのものが間違っている。

「AIが書いたことを検知しようとするのではなく、AIの利用に問題がないようにすることが重要です」と、同講師は言う。

人気の記事ランキング

リアノン・ウィリアムズ [Rhiannon Williams]米国版ニュース担当記者: 米国版ニュースレター「ザ・ダウンロード（The Download）」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i （アイ）」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。