米制裁で磨かれた中国AI「DeepSeek-R1」、逆説の革新

人工知能（AI）コミュニティは、ディープシークが新たに開発したオープンソースの推論モデル「R1」に沸いている。

このモデルは中国のAIスタートアップ企業であるディープシーク（深度求索：DeepSeek）が開発したものだ。同社によると、R1はオープンAI（OpenAI）のChatGPT（チャットGPT）で利用できる大規模言語モデル（LLM）「o1」に主要ベンチマークの多くで匹敵、あるいは凌駕する性能を誇るが、運用コストは数分の一で済むという。

「R1は、リソースが限られている研究者や開発者、特にグローバル・サウスの研究者や開発者にとって、真に平等なブレークスルーとなるかもしれません」。ジョージア州アトランタにあるエモリー大学で情報システム学を研究している、ハンチェン・カオ助教授は話す。

中国のAI企業が、米国による最先端チップの輸出規制という制約に直面していることを考えると、ディープシークの成功はさらに注目に値するものと言える。しかし当初の様子では、この制裁措置は米国の期待通りには機能していない。この制裁は中国のAI開発能力を弱めるどころか、ディープシークのようなスタートアップ企業を、効率、計算資源、協力を優先させことで革新を起こさせているように思われる。

ディープシークの元従業員で、現在はノースウェスタン大学でコンピューター科学の博士課程に在籍しているジハン・ワンによると、ディープシークはR1の開発にあたり、GPU（画像処理装置）の負担を減らすために訓練プログラムを作り直さなければならなかった。このGPUはエヌビディア（Nvidia）が中国市場向けに提供しているもので、その性能は同社のトップ製品の半分に制限されていた。

ディープシークのR1は、特に数学とコーディングにおける複雑な推論の能力で、研究者から高く評価されている。このモデルは、チャットGPTのo1が採用しているような「思考の連鎖」アプローチを利用しており、クエリを段階的に処理することで問題を解決する。

マイクロソフトのAIフロンティア研究所で主任研究員を務めるディミトリス・パパイリオプロスは、R1について最も驚いたのは、その技術のシンプルさだと言う。「ディープシークは推論時のすべての段階を論理的かつ詳細に説明するのではなく、正確な答えを導き出すことを目指しており、高い能力を維持しながら計算時間を大幅に短縮しています」（パパイリオプロス主任研究員）。

ディープシークはまた、R1の小型版を6種類公開しており、6種類とも個人のノートPCで実行できるほど小さい。同社によると、そのうちの1つは特定のベンチマークでオープンAIの「o1-mini」を上回っているという。「ディープシークはo1-miniをほぼ完全に再現し、オープンソース化しています」。パープレキシティ（Perplexity）のアラヴィンド・スリニヴァス最高経営責任者（CEO）はXにこう投稿した。MIT テクノロジーレビューはディープシークにコメントを求めたが、回答は得られなかった。

R1が話題となっているものの、ディープシークという企業の知名度はまだ比較的低い。中国の杭州を拠点とするディープシークは、浙江大学出身で情報電子工学を専攻していた梁文峰（リャン・ウェンフェン）が2023年7月に設立した企業だ。2015年に梁が設立したヘッジファンド、ハイ-フライヤー（High-Flyer）が同社の設立当初に資金を提供した。オープンAIのサム・アルトマンと同様、梁は汎用AI（AGI：Artificial General Intelligence）の構築を目指している。AGIはAIの一種であり、さまざまなタスクで人間と同等、あるいは人間の能力を持つとされる。

大規模言語モデルの訓練には、高度な訓練を受けた研究者のチームと、相当な量の計算資源が必要だ。ベテラン起業家でグーグル・チャイナの元社長である李開復（リー・カイフー）は、中国メディア「レイトポスト（LatePost）」との最近のインタビューで、チャットGPTのような基盤モデルの構築には大量の計算資源が必要になるため、通常は「最前線のプレイヤー」しか手を出さないものだと述べている。米国による先端半導体の輸出規制によって状況はさらに複雑になっているが、ハイ-フライヤーがAIへの参入を決めた理由は、この制約に直接関係している。制裁が始まるずっと前に、梁は現在中国への輸出が禁止されているエヌビディアの「A100」GPUを大量に入手したのだ。中国メディア「36Kr」は、ハイ-フライヤーが保有しているA100は1万台以上になると推定しているが、AI研究コンサルタント会社セミアナリシス（SemiAnalysis）の創業者であるディラン・パテルは、少なくとも5万台はあると推定している。このストックをAIの訓練に利用できると知ったことが、梁がディープシークを設立するきっかけとなった。ディープシークは、低消費電力のチップとA100を組み合わせてモデルを開発した。

中国のAI分野は、アリババ（Alibaba）やバイトダンス（ByteDance）のようなテック大手や、資金力のある投資家の支援を得た一握りのスタートアップ企業に支配されているため、中小企業が競争に加わることは難しい。ディープシークのように資金調達の予定がない企業がAI開発に参入することは珍しいのだ。

ディープシークの元従業員であるジハン・ワンは、MITテクノロジーレビューの取材に対し、ディープシークでの勤務では豊富な計算資源を利用でき、実験する自由も与えられていたという。「どこの会社でもほとんどの新卒者はこれほどの贅沢はできません」と証言する。

2024年7月の中国メディア「36Kr」によるインタビューで梁は、中国企業はチップ輸出制限の制裁を受けているだけでなく、AIの開発技術が効率的ではない傾向という問題も抱えていると述べている。「私たち（ほとんどの中国企業）は、同じ結果を得るために2倍の計算資源を消費しなければなりません。これがデータ効率の格差と組み合わさって、最大で4倍の計算資源が必要になる可能性があります。私たちの目標は、こうしたギャップを埋めていくことです」。

しかし、ディープシークは精度を大きく犠牲にすることなく、メモリ使用量を減らし、計算を高速化する方法を発見した。「ハードウェアの面で課題となっている点をイノベーションの機会に変えるのが大好きなチームなんです」とワンは言う。

梁自身、いまだにディープシークの研究に深く関わっており、開発チームとともに実験を続けている。「チーム全体が協力的な文化を共有していて、本格的な研究に専念しています」とワンは話す。

中国企業は、効率を優先するだけでなく、オープンソースの考え方をますます受け入れるようになっている。アリババ・クラウド（Alibaba Cloud）は100以上の新しいオープンソースAIモデルを公開しており、29の言語に対応していて、コーディングや数学などさまざなタスクに利用できる。同様に、上海に拠点を置くミニマックス（Minimax）や、北京に本社を構える01.AIのようなスタートアップ企業も自社のモデルをオープンソース化している。

中国国営の研究機関である中国情報通信研究院が昨年発表した白書によると、世界の大規模言語モデルの数は1328に達し、その36％が中国発だという。中国は米国に次いでAIへの貢献度が第2位となっている。

「この中国の若い研究者の世代は、オープンソース文化から多くの恩恵を受けているため、オープンソース文化に強く共感しています」（タフツ大学でテクノロジー政策を研究しているトーマス・キトン・カオ助教授）。

カーネギー国際平和基金のAI研究者、マット・シーハンは、「米国の輸出規制は中国企業を追い詰め、限られた計算資源を以前よりはるかに効率良く使わなければならない状況へと追い込みました」と語る。「将来はおそらく、計算資源不足を理由に、多くの企業の統合が起きるでしょう」。

それはすでに始まっているのかもしれない。2週間前、アリババ・クラウドは、李開復が設立した01.AIと提携し、研究チームを統合して「産業用大規模モデル研究所」を設立すると発表した。

「AI産業で台頭するために、ある種の分業をすることはエネルギー効率が良く、自然なことです。AIが急速に進化する中、中国企業が生き残るには機敏な動きが求められます」（タフツ大学のカオ助教授）。

How a top Chinese AI model overcame US sanctions 米制裁で磨かれた中国AI「DeepSeek-R1」、逆説の革新