GPT-4oの中国語に異常 ポルノ、ギャンブルで トークンが汚染されていた

GPT-4o’s Chinese token-training data is polluted by spam and porn websites GPT-4oの中国語に異常
ポルノ、ギャンブルで
トークンが汚染されていた

オープンAIの最新の大規模言語モデル「GPT-4o」の中国語トークナイザーに、ポルノやギャンブル関連の用語が大量に含まれ、ハルシネーション(幻覚)が発生していることが分かった。訓練データのクリーニング不足が原因と見られる。 by Zeyi Yang2024.05.28

オープンAI(OpenAI)が5月13日にチャットボットの最新バージョン「GPT-4o」をリリースした直後、一部の中国語話者は、何かがおかしいことに気づき始めた。テキストを解析するために使われるトークン(モデルが取り扱う言葉の単位)がスパムやポルノフレーズであふれていたのだ。

チャットボットなどで使われている大規模言語モデル(LLM)の推論効率を研究しているプリンストン大学の博士課程学生、ティアンラ・サイは5月14日、GPT-4oのパブリックトークン・ライブラリにアクセスし、中国語のプロンプト(指示テキスト)を解析・圧縮するためにモデルが使用する最も長い100個の中国語のトークンのリストを取得した。

人間は単語を使って文章を読むが、LLMはトークンを使って読む。トークンとは、一貫した重要な意味を持つ、文中の明確な単位である。トークンには、辞書に載っている単語だけでなく、接尾辞、慣用句、名前なども含まれる。モデルがエンコードするトークンの数が多ければ多いほど、モデルはより速く文章を「読む」ことができ、消費するコンピューティングパワーも少なくなるため、レスポンスのコストを下げられる。

サイの調査によると、100個のトークンのうち、日常会話でよく使われる一般的なものは3つだけで、他はすべてギャンブルかポルノの文脈でのみ使われる単語や表現だった。最も長いトークンは10.5漢字で、文字どおり「_無料で見られる日本人のポルノビデオ」を意味するものであった。

「これは少し馬鹿げています」とサイは書き、トークンのリストをGitHubに投稿した。

MIT テクノロジーレビューはオープンAIに質問を送ったが、本記事公開までに回答は得られなかった。

GPT-4oは、前バージョンに比べて多言語タスクの処理に優れているとされる。特に、英語以外の言語のテキストをよりうまく圧縮する新たなトークナイザー(文章をトークンに分割するツール)によってそれが達成されているという。

しかし、少なくとも中国語に関しては、GPT-4oが使用する新しいトークナイザーは、不釣り合いなほど多くの無意味なフレーズを導入している。トークナイザーを訓練する前のデータのクリーニングとフィルタリングが不十分だったことが原因である可能性が高いと専門家らは指摘している。

そして、それによってGPT-4oのパフォーマンスにも影響が出ている。これらのトークンは、実際によく使われる単語やフレーズではないため、GPT-4oがトークンの意味を把握できないことがあるのだ。研究者はこれらのトークンを使って、GPT-4oにハルシネーション(幻覚、もっともらしい誤った回答を生成する現象)を起こさせたり、モデルによって設定された安全ガードレールを回避させたりすることもできた。

英語以外のトークンが重要な理由

モデルがテキストを処理する最も簡単な方法は一文字ずつ処理することだ。しかし、「c-r-y-p-t-o-c-u-r-r-e-n-c-y」が常に「cryptocurrency(暗号通貨)」を意味するというように、特定の文字列が常に同じことを意味するとモデルが理解できる場合よりも、明らかに時間と手間がかかる。これらの文字列は、モデルがプロンプトを処理するための「トークン」としてエンコードされる。そのため、より多くの、より長いトークンを含めることで、通常、LLMはより効率的になり、多くの場合トークン単位で課金されるユーザーにとって手頃な価格で利用できるようになる。

オープンAIは5月13日にGPT-4oをリリースした際、以前のバージョンであるGPT-3.5とGPT-4で使用していたものに代わる新しいトークナイザーもリリースした。オープンAIのWebサイトによると、新しいトークナイザーは特に英語以外の言語のサポートを強化するものだという。

新しいトークナイザーには全部で20万個のトークンが含まれ、その約25%が英語以外の言語である、とメンロ・ベンチャーズ(Menlo Ventures)の人工知能(AI)投資家であるディーディ・ダスは言う。ダスが言語フィルターを使ってさまざまな言語のトークン数を数えたところ、英語以外の上位言語はロシア語、アラビア語、ベトナム語だった。

「私の考えでは、トークナイザーの主な効果は、これらの言語のトークンコストを下げることであり、これらの言語の質が劇的に向上することではありません」とダスは言う。LLMが英語以外の言語でより良質な、より長いトークンを持っていれば、プロンプトをより速く分析し、同じ回答に対してユーザーに請求する料金を低くすることができる。新しいトークナイザーを使えば、「ほぼ4倍のコスト削減が見込めます」とダスは話す。

ヒンディー語とベン …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。