ディープシーク・ショック、
始まった「推論」の価格破壊
わずか600万ドルで開発されたという中国企業ディープシーク(DeepSeek)の大規模言語モデルが業界に衝撃を与えている。注目すべきは、推論(reasoning)モデルの開発が従来考えられていたよりもはるかに容易であることが示されたことだ。 by Will Douglas Heaven2025.02.04
- この記事の3つのポイント
-
- 中国企業ディープシークが開発した言語モデルR1は低コストで高性能を実現した
- R1は強化学習を活用し人手を介さずに推論能力を獲得した点が革新的である
- R1の成功で今後は中小企業の参入が活発化し、競争環境が変化する可能性
中国企業のディープシーク(DeepSeek)が発表した大規模言語モデル「R1」は、米国のテック業界に衝撃を与えた。わずかなコストで開発されたにもかかわらず、米国内の競合製品と同等の性能を誇り、しかも無料で公開されたためだ。
米国株式市場は1兆ドルの損失を被り、トランプ大統領はこれを「警鐘」と呼び、再び誇大広告が繰り広げられた。シリコンバレーの有力投資家であるマーク・アンドリーセンはXに、「DeepSeek-R1は、私がこれまで目にした中で最も驚くべき、印象的なブレークスルーのひとつであり、オープンソースであることは世界への大きな贈り物です」と投稿した。
しかし、注目すべきはディープシークのイノベーションだけではない。同社は、R1とその前身モデル「V3」の構築方法に関する詳細を公開し、モデル自体も無料でリリースすることで、推論(reasoning)モデルの開発が従来考えられていたよりもはるかに容易であることを示した。これにより、ディープシークは世界トップクラスの研究機関との差を大きく縮めた。
このニュースは、世界中の競合企業に火を付けた。先週、中国の巨大テック企業アリババ(Alibaba)は大規模言語モデル「Qwen(クウェン)」の新バージョンを、米国の有力な非営利研究機関であるアレン人工知能研究所(AI2)は、大規模言語モデル「Tulu(トゥルー)」のアップデートをそれぞれ発表した。いずれもディープシークの同等モデルを上回ると主張している。
オープンAIの共同創業者兼最高経営責任者(CEO)であるサム・アルトマンは、R1について「無料にしてはすばらしい」と評価しながらも、「我々は明らかに、はるかに優れたモデルを提供します」と強気の発言で応戦した。その後オープンAIは、ディープシークのアプリが中国にデータを送信しているとの懸念に対応する形で、米国政府機関のセキュリティ要件に特化した「ChatGPT Gov(チャットGPTガブ)」というバージョンをリリースした。今後もさらなる展開が予想される。
ディープシークは一躍、打倒すべき企業となった。同社はどのようにして、これほどまでにテクノロジー業界を揺るがす存在となったのか? 過熱する期待は本物なのか? そして、この「ざわめき」から私たちは何を学ぶべきなのか? 以下で詳しく解説しよう。
訓練の手順
まず、大規模言語モデルがどのように訓練されるかを説明しよう。訓練には「事前学習」と「事後学習」という2つの主要な段階がある。多くの人が注目するのは事前学習だ。このプロセスでは、膨大な数のWebサイト、書籍、コードリポジトリなど、数十億件のドキュメントをニューラルネットワークに繰り返し入力し、ネットワークが1語ずつ、元のテキストに似た文章を生成できるように学習する。この段階で作成されるのが、「ベースモデル」と呼ばれるものだ。
事前学習は作業量が最も多く、莫大なコストがかかる。しかし、オープンAIの共同創業者でテスラの元AI責任者であるアンドレイ・カルパシーは、昨年のマイクロソフト・ビルド(Microsoft Build)での講演で次のように述べている。「ベースモデルはアシスタントではありません。それは単にインターネット上のドキュメントを完成させるためのものです」。
大規模言語モデルを実用的なツールにするには、さらにいくつかの追加手順が必要だ。それが事後学習の段階であり、この段階でモデルは、質問への回答(オープンAIの「o3」やディープシークの「R1」のように段階的な回答を含む)といった特定のタスクを学習する。ここ数年で一般的となった手法は、ベースモデルを使い、大勢の人間のテスターが提供する質問と回答のペアを模倣するように訓練するものだ。このプロセスは「教師ありファインチューニング」として知られている。
その後、オープンAIは、モデルが生成したサンプル回答に人間のテスターがスコアを付け、そのスコアを利用してモデルを訓練するという新たな手法を開発した。この訓練により、モデルは高評価の回答に似た出力を生成し、低評価の回答は避けるようになる。この手法は「人間のフィードバックによる強化学習(Reinforcement Learning with Human Feedback:RLHF)」と呼ばれ、ChatGPTのようなチャットボットの高い性能を支える重要な技術となっている。現在、このRLHFは業界全体で広く採用されている。
しかし、こうした事後学習のプロセスには多くの時間がかかる。ディープシークが示したのは、少なくともほとんどの場合、人間を介さなくても同等の結果を得られるということだ。ディープシークは、教師ありファインチューニングとRLHFを完全に自動化された強化学習のプロセスに置き換えている。そして、人間のフィードバックによるモデルの最適化ではなく、コンピューターが生成するフィードバック・スコアを使用している。
「人間によるフィードバックを省略または削減できるというのは非常に大きなことです」と語るのは、アリババの元研究部長で、現在はイスラエルを拠点とするAIコーディング・スタートアップ企業「コド(Qodo)」の共同創業者兼CEOであるイタマール・フリードマンだ。「人間が労力をかけることなく、ほぼ完全にモデルを訓練できることになります」。
安価な労働力
このアプ …