中国テック事情:回答拒否率も規定、驚くほど具体的な生成AI規制案
中国政府機関が生成AIの規制に関する草案文書を発表した。同文書は、テック企業が実施すべきセキュリティ評価とその評価基準について、非常に具体的な方法を明確に示しており、参考になりそうなところも多い。 by Zeyi Yang2023.12.05
この記事は米国版ニュースレターを一部再編集したものです。
7月に中国政府が生成AI(ジェネレーティブAI)に関する法律を可決して以来、私は、中国の検閲マシンがいったいどのように人工知能(AI)時代に適応することになるのだろうかと、ずっと考えていた。生成AIモデルによって生み出されるコンテンツは、従来のソーシャルメディアよりもさらに予測が難しい。また、この法律にはまだはっきりとしない点も多い。たとえば、「社会的動員力のある」企業に対し、政府規制当局に「セキュリティ評価」を提出することを求めているが、その評価の仕組みについては明確にされなかった。
そのすべてが実際にどのようなものになるのか、いくらか明らかになった。
10月11日、中国政府機関「国家情報セキュリティ標準化技術委員会」が、生成AIモデルに問題があるかどうか判断する方法に関し、詳細なルールを提案する草案文書を発表した。しばしば「TC260」という略称で呼ばれるこの委員会は、サイバーセキュリティからプライバシー、ITインフラに至るまで、さまざまな問題に関して企業代表者や学者、規制当局から意見を聞き、関連するテック業界のルール作りをしている。
AIの規制方法に関するこれまでの多くのマニフェストとは異なり、この基準文書は非常に詳細である。生成AIの訓練において使用が禁止されるデータソースの明確な基準を設定しているほか、モデルをテストするために用意するべきキーワードやサンプル問題の正確な数についても基準を定めている。
この文書について教えてくれたカーネギー国際平和基金(Carnegie Endowment for International Peace)のグローバル・テクノロジー・フェロー、マット・シーハンは、この文書を初めて読んだとき、「生成AI規制に関する文書の中で、最も現実的かつ具体的なもののように感じました」と言う。さらに、「本質的にこの文書は、要件が曖昧なことが多い生成AI規制の遵守方法に関して、企業に解説やプレーブックを提供するもの」とも述べている。
AIモデルにおいて企業が「安全性リスク」とみなすべきものも明確にしている。中国政府は、アルゴリズムのバイアスのような世界共通の懸念と、中国の文脈でのみ注意が必要なコンテンツの両方を排除しようとしているためだ。「すでに高度に洗練されている検閲インフラに適応するものです」と、シーハンは言う。
では、具体的なルールを見ていこう。
1. AIモデルの訓練
すべての基礎となるAIモデルは、現在、多くのコーパス(テキストや画像のデータベース)で訓練されており、その中にはバイアスがかかっていたり、モデレーションされていなかったりするコンテンツが含まれている。TC260の基準は企業に対し、コーパスの多様化(言語やフォーマットの混合)だけでなく、すべての訓練教材の品質評価も求めている。
その方法は次の通りだ。企業は1つのソースから、サンプルとして4000の「データの断片」を無作為に抽出しなければならない。もしそのデータの5%以上が「違法でネガティブな情報」とみなされる場合、そのコーパスは今後の訓練から除外する必要がある。
この割合は一見低いように思えるかもしれないが、現実のデータと比較してどうなのかはわからない。「私にとってはかなり興味深い内容です。ウィキペディアの96%は問題ないのでしょうか?」と、シーハンは疑問を持つ。しかし、訓練データセットが中国の国営新聞アーカイブのようなものであれば、すでに十分な検閲されているため、このテストに合格するのは簡単だろうとシーハンは指摘する。そのため、企業はそのようなデータセットを使ってモデルを訓練する可能性がある。
2. モデレーションの規模
AI企業は「国の方針や第三者からの苦情に基づいて、生成されたコンテンツの質を速やかに改善するモデレーター」を雇わなければならない。文書では、「モデレーターチームの規模はサービスの規模に見合ったものにする必要がある」と付け加えられている。
バイトダンス(ByteDance)のような企業では、すでにコンテンツ・モデレーターが労働力の最も大きな部分を占めるようになっている。このことを考えると、AI時代には人間主導のモデレーションと検閲マシンの規模がますます大きくなる一方だろう。
3. 禁止コンテンツ
企業はまず、安全でないコンテンツや禁止コンテンツにフラグを立てるためのキーワードを、数百個選ぶ必要がある。この文書の基準では、「社会主義の核心的価値観」に反する政治的コンテンツを分類する8つのカテゴリーが定義されており、企業はそれぞれのカテゴリーに対して200個のキーワードを選ばなければならない。また、宗教信仰、国籍、ジェンダー、年齢に基づく差別など、「差別的な」コンテンツも9つのカテゴリーに分類されている。そのそれぞれに、100個のキーワードが必要である。
次に、企業はモデルからテスト回答を引き出すことができる2000以上のプロンプト(上記のカテゴリーそれぞれに対し少なくとも20)を考案しなければならない。最後に、モデルがテストを実行して、ルールに違反する回答の生成が10%未満であることを保証する必要がある。
4. より高度かつ微妙な検閲
提案されている基準内容の多くは検閲の実施方法の決定に関するものであるが、興味深いことに、この草案はAIモデルがモデレーションや検閲をしていることを明白にしすぎることがないように求めている。
たとえば、中国の最新AIモデルの中には、「習近平」というテキストが含まれるプロンプトへの回答を拒否するものがある。今回の提案は企業に対し、中国の政治制度や革命の英雄といった、回答しても問題ないテーマに関するプロンプトを見分けるように求めており、AIモデルが回答を拒否できるのは5%未満に限定されている。「『モデルは悪いことを言ってはいけない』ということと、『あらゆるものが検閲されていることを世間に対し明白にしすぎてはいけない』と、2つのことを言っているのです」と、シーハンは説明する。
どれも興味をそそられる内容ではないだろうか?
だが、この文書の位置付けを明確にすることが重要である。TC260は中国政府機関の監督を受けているとはいえ、これらの基準は法律ではない。もし企業がこの基準を遵守しなくても、罰則はない。
しかし、このような提案は、しばしば将来の法律に反映されたり、法律と並行して運用されたりする。また、この提案は、中国のAI規制では省略されている細則を明確化するのに役立つ。「企業はこの文書に従うでしょうし、規制当局もこれを拘束力のあるものとして扱うことになると思います」と、シーハンは言う。
誰がTC260基準の具体的な形を作っているのか考えることも重要だ。中国のほとんどの法律とは異なり、これらのルールはテック企業に雇われた専門家からの情報が明確に反映されている。また、それらの情報がルール作りに寄与した場合は、基準の最終決定後に開示されることになっている。それらの専門家はこのテーマを最もよく知っている人々だが、金銭的な利害関係も有している。ファーウェイ(Huawei)、アリババ(Alibaba)、テンセント(Tencent)などの企業は、過去のTC260基準に大きな影響を与えてきた。
つまり、この文書は、中国のテック企業が自社製品に対して望む規制内容が反映されたものとも見なすことができる。率直に言って、規制されないことを願うのは賢明なやり方ではない。こうした企業にはルールの策定に影響を与えたいと考える動機がある。
他の国々がAIの規制に取り組む中で、中国のAI安全性基準は世界のAI産業に大きな影響を与えるだろうと私は考えている。よく言えば、一般的なコンテンツ・モデレーションのための技術的な詳細を提案するものであり、悪く言えば、新たな検閲体制の始まりを告げるものである。
記事では限られたことしか伝えられないが、この文書には、詳しく検討する価値のあるルールがほかにもたくさん載っている。TC260は10月25日まで意見を募集していたので、まだルールは変更される可能性があるが、最終版が発表されたら欧米のAI安全性専門家らがどのように考えるか、ぜひ知りたいところだ。
◆
中国関連の最新ニュース
1. 欧州連合(EU)が、イスラエルとハマスの間の紛争に関する偽情報への対策を十分に実施していないとして、メタとXに加えて、ティックトック(TikTok)を非難した。(ロイター )
2. 20年前に反中国共産党プロパガンダ・チャンネルとして法輪功グループが創刊した新聞『エポック・タイムズ( Epoch Times)』は、現在、米国で購読者数第4位の新聞であると主張している。同紙の成功は、右翼政治と陰謀論を取り入れることで実現した。(NBCニュース)
3. 人気の画像生成AIソフト「ミッドジャーニー(Midjourney)」が「一皿の中華料理 」というプロンプトに対して生成する画像は、創造的でも博識でもない。他のプロンプトは、さらに多くの文化的ステレオタイプがAIに組み込まれていることを明らかにする。(レスト・オブ・ワールド)
4. 中国は今から2025年までの間に、国のコンピューティング能力を50%向上させる計画だ。具体的には、さらに多くのデータセンターの建設とそれらのより効率的な使用、およびデータ・ストレージ技術の向上によって実現するという。(CNBC)
5. インドの金融犯罪取締機関が、同国第2位のスマホメーカー、ビボ(Vivo)の中国人従業員を逮捕した。ビボは、中国のプロパガンダ活動と関連付けられているニュースサイトに対し、違法に資金を送金したとして告発されていた。(BBC)
6. 流出したファーウェイの内部通信情報には、同社がギリシャの高官との関係を深め、同国の汚職防止法の制限を緩めようとしていた様子が示されている。(ニューヨーク・タイムズ )
7. 10月上旬、チャック・シューマー米上院多数党院内総務ほか5人の上院議員が北京を訪問し、習近平中国国家主席と会談した。イスラエルとハマスの間の戦争が会話の焦点だった。(AP通信)
8. 中国でビジネス記者として働いていたオーストラリア国籍のチェン・レイが、3年ぶりにやっと中国による勾留から釈放された。(BBC)
広告まみれのスマートTVにストレス
中国のテレビやプロジェクターのスマート化が進むにつれ、ユーザー体験は氾濫する広告の中でよりフラストレーションのたまるものになっている。中国の技術情報誌『雷科技』によると、多くのスマートテレビは、ユーザーがテレビをつけるたびに、時には40秒もあるような広告を見ることを強制するという。テレビメーカーに「スキップ」ボタンを提供することを義務付ける規制があるにもかかわらず、そのようなオプションはシステム設定の一番奥に隠されていることが多い。ユーザーはまた、TVプロバイダーがコンテンツへのさまざまなアクセスレベルに応じて複数の料金の支払いを要求しており、お気に入りの番組を見るのが複雑になりすぎていることにも不満を訴えている。
今年に入って、中国国家ラジオ映画テレビ総局がそれらの懸念に対処し始めた。政府の新たな取り組みは、ケーブルテレビのユーザーの80%、およびストリーミングのユーザーの85%が、テレビの電源を入れたらすぐに、放送中のテレビチャンネルへアクセスできるようにすることを目指している。シャオミ(Xiaomi)など一部のテレビメーカーも、遅ればせながらオープニング広告を永久に無効にするためのオプションを提供している。
あともう1つ
あなたはデートするとき、何を一番重視するだろうか? もしその答えが「2人とも政府で働いていること」であるなら、中国の浙江省に来るべきだ。浙江省政府職員向けの内部コミュニケーション・アプリには、独身の政府職員のプロフィールをスワイプして見られる機能がある。どうやら中国政府は職場恋愛を推奨しているようだ。
- 人気の記事ランキング
-
- The humans behind the robots 家事ロボット、実は8割は遠隔操作 あなたは受け入れられますか?
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- Can Afghanistan’s underground “sneakernet” survive the Taliban? タリバン政権下で生き残りをかける「コンテンツ密売人」たち
- The 8 worst technology failures of 2024 MITTRが選ぶ、 2024年に「やらかした」 テクノロジー8選
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷
- ヤン・ズェイ [Zeyi Yang]米国版 中国担当記者
- MITテクノロジーレビューで中国と東アジアのテクノロジーを担当する記者。MITテクノロジーレビュー入社以前は、プロトコル(Protocol)、レスト・オブ・ワールド(Rest of World)、コロンビア・ジャーナリズム・レビュー誌、サウスチャイナ・モーニング・ポスト紙、日経アジア(NIKKEI Asia)などで執筆していた。