人工知能(AI)が生成したテキストに埋め込まれた隠されたパターンが、そのテキストがAIによって書かれたかどうかを見分けるのに役立つかもしれない。自分が読んでいる文章が果たして人間によって書かれたものなのかどうかを判断できるようになるのだ。
この「電子透かし」は、人間の目には見えないが、コンピューターに読み込ませることで、その文章がAIシステムの生成物である可能性を検出できる。大規模言語モデルに電子透かしが組み込まれれば、言語モデルがすでに引き起こしている問題を防げる可能性がある。
例えば、オープンAI(OpenAI)のチャットボット「チャットGPT(ChatGPT)」は2022年11月に公開されて以来、すでに学生らによって小論文の代筆に悪用されている。ニュースサイト「CNET」はAIを記事の執筆に使用したものの、盗作の非難を受けたあげく、訂正記事を出す羽目になった。しかし、AIが生成した文章を見破る有望な方法がある。そうした文章を識別できるような隠されたパターンを、リリース前のAIシステムに埋め込んでおくことだ。
すでにいくつかの研究で、こうした電子透かしを目印として、AIが生成した文章をほぼ確実に識別できることが示されている。メリーランド大学の研究チームが開発した電子透かしは、彼らが構築した検出アルゴリズムにかけることで、メタのオープンソース言語モデル「OPT-6.7B」が作成した文章を判別できた。この研究成果は、まだ査読を受けていない論文に記載されており、2023年2月15日頃にコードが無償公開される予定だ。
AI言語モデルは作動中、一度につき一つの単語を予測・生成する。メリーランド大学の研究チームの電子透かしアルゴリズムは、それぞれの単語に続く言語モデルの語彙を「グリーンリスト」と「レッドリスト」にランダムに分類し、グリーンリストにある単語を選択するよう言語 …