中国テック事情:GPT-4oだけじゃない中国語の訓練データ問題

OpenAI’s latest blunder shows the challenges facing Chinese AI models 中国テック事情:GPT-4oだけじゃない中国語の訓練データ問題

オープンAIの「GPT-4o」の中国語で異常が発生したのは、訓練データの汚染が原因と見られている。背景にあるのは中国のインターネットの構造的な問題だ。 by Zeyi Yang2024.05.30

この記事は米国版ニュースレターを一部再編集したものです。

音声、テキスト、映像を使ってやり取りできる新しい人工知能(AI)オムニモデルである「GPT-4o」の5月13日のリリースは、オープンAI(OpenAI)にとって晴れ舞台になるはずだった。しかし、それからわずか数日で、同社は大きな苦境に陥っているようだ。安全性チームの大半の辞任や、同意に反してこのAIモデル用に自分の声が複製されたというスカーレット・ヨハンソンの告発などから、オープンAIは現在、ダメージ・コントロール・モードに入っている。

加えて、オープンAIがGPT-4oでしくじったことがもう1つある。トークナイザー(モデルがテキストをより効率的に構文解析・処理できるように支援するツール)の訓練に使用したデータが、中国のスパムサイトによって汚染されていたのだ。その結果、このモデルの中国語トークン・ライブラリは、ポルノやギャンブルに関連するフレーズだらけになっている。このことによって、AIモデルによく見られるハルシネーション(幻覚)やお粗末な性能、誤用といったいくつかの問題がさらにひどくなる可能性がある。

複数の研究者やAI業界関係者がこの問題を指摘したことを受け、この件について記事にまとめた。研究者らは、GPT-4oの公開トークンライブラリを調べた。このライブラリは、英語以外の言語への対応を向上させるため、新しいモデルで大幅に更新されたものである。そして調査の結果、このモデルが持つ最も長い中国語トークン100個のうち、90個以上がスパムWebサイトから取得したものであることがわかった。それらの中国語トークンは、「無料で見られる日本人のポルノビデオ」や「北京レースカー賭博」「毎日中国福祉宝くじ」などといったフレーズである。

中国語を読める人なら誰でも、すぐにこの一連のトークンの問題に気づくかもしれない。このようなフレーズがいくつか訓練データセットに紛れ込むのは、しかたないことではある。ネット上ではアダルト・コンテンツの人気が高いからだ。しかし、モデルの訓練に使われた中国語の90%を占めているとは、どういうことだろうか?憂慮すべき事態である。

「1人の中国人として、見るのが恥ずかしいです。単に、(中国語の)データの質の問題なのでしょうか? データのクリーニングが不十分なせいなのか、それとも、中国語自体がそういうものなのでしょうか?」と、カーネギーメロン大学でコンピューター科学の博士課程に在籍する学生、ジェンヤン・ゲンは言う。

GPT-4oのためにオープンAIが選んでいるトークンから、ある言語や文化について1つの結論を導き出したくなるかもしれない。結局のところ、それらのトークンは、それぞれの言語によく見られる重要なフレーズとして選ばれているものだ。香港在住の研究者、ヘンリー・ルオが投稿した興味深いブログ記事がある。ルオはさまざまな言語の最も長いGPT-4oトークンを照会し、それらが異なるテーマを持っているように見えることを発見した。ロシア語のトークンには政府や公的機関に関する言葉が反映されている一方で、日本語のトークンには「ありがとう」のさまざまな言い方がたくさん含まれている。

しかし、これは文化や国の違いを反映しているというよりも、どのような種類の訓練データがオンラインで容易に入手できるのかということや、GPT-4oに入力するためオープンAIがクロールしたWebサイトについて説明しているのだと、私は考える。

記事を公開した後、カリフォルニア大学サンディエゴ校で政治学の教授を務めるビクター・シーが、Xで次のようにコメントした。「中国国営メディアのコンテンツで訓練しないようにしようとすると、こういう結果になります」。

半分は冗談だが、残りの半分は、大規模言語モデルに中国語を話すように訓練する際の2つの大きな問題に関する、真剣な指摘である。ネットで容易に入手できるデータが反映しているのは、中国に関して話をする方法として認可を受けた「公式な」ものか、あるいは、どこにでも存在して現実の会話を埋もれさせているスパム.・コンテンツのどちらかなのだ。

実際、GPT-4oが扱うポルノにもギャンブルにも関連しない少数の長い中国語トークンのうち、2つは「中国的な特徴を持つ社会主義」と「中華人民共和国」である。これらのフレーズの存在は、訓練データのかなりの部分が、実際に中国国営メディアの文章から取得されたものである可能性を示している。それらのメディアの文章は、形式的で長い表現であることが極めて一般的である。

オープンAIはこれまで、モデルの訓練に使用しているデータについて口を閉ざしてきた。おそらくこれからも、中国語訓練データベースのうち、どれだけの割合が国営メディアのもので、どれだけがスパムなのか、教えてくれることはないだろう(MITテクノロジーレビューはオープンAIへ詳細な質問を送ったが、返答はなかった)。

しかし、この問題に悩んでいるのはオープンAIだけではない。中国のAI業界で働く中国国内の人々も、LLM(大規模言語モデル)訓練用の中国語テキストデータセットに、質の高いデータが不足していることを認める。理由の1つは、中国のインターネットがかつて、そして概して今も、テンセント(Tencent)やバイトダンス(ByteDance)といった大企業によって分割支配されているからだ。それらの企業はソーシャル・プラットフォームのほとんどを所有しており、LLMを訓練するために競合他社や第三者とデータを共有することはない。

実は、グーグルを含め、検索エンジンが中国語での検索に関してはあまり強くない理由もここにある。ウィーチャット(WeChat)のコンテンツはウィーチャットでしか検索できず、ドウイン(Douyin=中国版ティックトック)のコンテンツはドウインでしか検索できないため、LLMはもちろん、サードパーティの検索エンジンも、データにアクセスできないのだ。しかし、それらのプラットフォームは、常にオンラインギャンブルに引き込もうとしているスパムWebサイトとは異なり、実際の人間同士が会話をしている場所である。

質の高い訓練データが不足していることは、GPT-4oのトークン訓練データでポルノや雑多な意味のないコンテンツを除去できなかったことよりも、はるかに大きな問題である。既存のデータセットがない場合、AI企業は独自のデータセットを特定し、調達し、収集・要約して、不適切なコンテンツや偏ったコンテンツを除去しなければならず、それには多大な労力を要する。

オープンAIがそんなことをしているようには見えない。どちらにせよ中国在住の人々が同社のAIモデルを使えない事実を踏まえれば、公平に言って理にかなっているように思える。

しかしそれでも、中国国外にいる多くの人々が、中国語でAIサービスを使いたいと考えている。そしてそれらの人々も、他の言語を話す人々と同じくらい、きちんと機能する製品を使う資格がある。

 


中国関連の最新ニュース

1. 中国が、米国、EU、台湾、日本からのポリオキシメチレン共重合体(電子機器や自動車に広く使用されているプラスチック)の輸入に対し、反ダンピング調査を開始した。これは、中国製の電気自動車(EV)に対する米国の新たな関税措置への反応と見られている。(BBC

2. 中国の太陽光産業ブームによって、農家が、太陽光パネルを設置し、発電した電気を売っていくらかの追加収入を得ようという気になっている。(AP通信

3. 人民元の潜在的な切り下げリスクに対するヘッジとして金を買う中国の人々が、金価格を史上最高値に押し上げている。(フィナンシャル・タイムズ

4. 上海政府が、非常に恐れられているセキュリティ評価を受けることなく、データを中国から転送できる試験プログラムを立ち上げた。これは、テスラ(Tesla)などの企業が以前から求めていた動きである。(ロイター

5. 中国の中央銀行が、現金での支払いを拒否したとして、7社の企業(KFCや国有企業の支店を含む)に対し罰金を科した。モバイル決済の普及は良いことだったが、現金への対応が縮小していることで、高齢者や外国人観光客などにとっては暮らしにくくもなっている。(ビジネスインサイダー

6. アリババ(Alibaba)とバイドゥ(Baidu)は、より多くのユーザーを獲得するため、中国でLLMの価格競争を繰り広げている。(ブルームバーグ

7. 中国政府はマイク・ギャラガー元共和党下院議員に制裁措置を課している。同議員は「中国に関する特別委員会」の委員長を務めた経験があり、現在も中国政府を激しく批判している。(NBCニュース

遺伝子データ規制緩和の動き

中国語メディアの財新(Caixin)によると、中国の国家衛生健康委員会が、バイオテック産業強化のため、ヒトの遺伝子データに関する厳格な規則の緩和を検討している。1998年に制定された規制によって、ヒトの遺伝子データの使用を伴う研究には、承認プロセスをクリアすることが義務付けられている。研究に外国の機関が関与する場合は、さらに厳しい審査が実施される。

ヒト遺伝子の研究が始まった当初数年は、この規制が合意のないDNAの収集を防ぐのに役立っていた。しかし、新たな治療法を発見する上で遺伝子データの利用がますます重要になるにつれ、業界はこの官僚主義に不満を持つようになった。研究プロジェクトに2〜4カ月も余計な時間がかかる可能性があるためだ。現在、中国政府が、中国におけるバイオテック研究の成長を加速させる取り組みの一環として、規制の改正方法について議論しており、小規模な研究やより多くの外国機関に対する承認プロセスが撤廃される可能性がある。