KADOKAWA Technology Review
×
DeepSeekショック、
始まった「推論」の価格破壊
Stephanie Arnett/MIT Technology Review | Envato
人工知能(AI) Insider Online限定
How DeepSeek ripped up the AI playbook—and why everyone's going to follow it

DeepSeekショック、
始まった「推論」の価格破壊

わずか600万ドルで開発されたという中国企業ディープシーク(DeepSeek)の大規模言語モデルが業界に衝撃を与えている。注目すべきは、推論(reasoning)モデルの開発が従来考えられていたよりもはるかに容易であることが示されたことだ。 by Will Douglas Heaven2025.02.04

この記事の3つのポイント
  1. 中国企業ディープシークが開発した言語モデルR1は低コストで高性能を実現した
  2. R1は強化学習を活用し人手を介さずに推論能力を獲得した点が革新的である
  3. R1の成功で今後は中小企業の参入が活発化し、競争環境が変化する可能性
summarized by Claude 3

中国企業のディープシーク(DeepSeek)が発表した大規模言語モデル「R1」は、米国のテック業界に衝撃を与えた。わずかなコストで開発されたにもかかわらず、米国内の競合製品と同等の性能を誇り、しかも無料で公開されたためだ。

米国株式市場は1兆ドルの損失を被り、トランプ大統領はこれを「警鐘」と呼び、再び過剰広告が繰り広げられた。シリコンバレーの有力投資家であるマーク・アンドリーセンはXに、「DeepSeek-R1は、私がこれまで目にした中で最も驚くべき、印象的なブレークスルーのひとつであり、オープンソースであることは世界への大きな贈り物です」と投稿した。

しかし、注目すべきはディープシークのイノベーションだけではない。同社は、R1とその前身モデル「V3」の構築方法に関する詳細を公開し、モデル自体も無料でリリースすることで、推論(reasoning)モデルの開発が従来考えられていたよりもはるかに容易であることを示した。これにより、ディープシークは世界トップクラスの研究機関との差を大きく縮めた。

このニュースは、世界中の競合企業に火を付けた。先週、中国の巨大テック企業アリババ(Alibaba)は大規模言語モデル「Qwen(クウェン)」の新バージョンを、米国の有力な非営利研究機関であるアレン人工知能研究所(AI2)は、大規模言語モデル「Tulu(トゥルー)」のアップデートをそれぞれ発表した。いずれもディープシークの同等モデルを上回ると主張している。

オープンAIの共同創業者兼最高経営責任者(CEO)であるサム・アルトマンは、R1について「無料にしてはすばらしい」と評価しながらも、「我々は明らかに、はるかに優れたモデルを提供します」と強気の発言で応戦した。その後オープンAIは、ディープシークのアプリが中国にデータを送信しているとの懸念に対応する形で、米国政府機関のセキュリティ要件に特化した「ChatGPT Gov(チャットGPTガブ)」というバージョンをリリースした。今後もさらなる展開が予想される。

ディープシークは一躍、打倒すべき企業となった。同社はどのようにして、これほどまでにテクノロジー業界を揺るがす存在となったのか? 過熱する期待は本物なのか? そして、この「ざわめき」から私たちは何を学ぶべきなのか? 以下で詳しく解説しよう。

訓練の手順

まず、大規模言語モデルがどのように訓練されるかを説明しよう。訓練には「事前学習」と「事後学習」という2つの主要な段階がある。多くの人が注目するのは事前学習だ。このプロセスでは、膨大な数のWebサイト、書籍、コードリポジトリなど、数十億件のドキュメントをニューラルネットワークに繰り返し入力し、ネットワークが1語ずつ、元のテキストに似た文章を生成できるように学習する。この段階で作成されるのが、「ベースモデル」と呼ばれるものだ。

事前学習は作業量が最も多く、莫大なコストがかかる。しかし、オープンAIの共同創業者でテスラの元AI責任者であるアンドレイ・カルパシーは、昨年のマイクロソフト・ビルド(Microsoft Build)での講演で次のように述べている。「ベースモデルはアシスタントではありません。それは単にインターネット上のドキュメントを完成させるためのものです」。

大規模言語モデルを実用的なツールにするには、さらにいくつかの追加手順が必要だ。それが事後学習の段階であり、この段階でモデルは、質問への回答(オープンAIの「o3」やディープシークの「R1」のように段階的な回答を含む)といった特定のタスクを学習する。ここ数年で一般的となった手法は、ベースモデルを使い、大勢の人間のテスターが提供する質問と回答のペアを模倣するように訓練するものだ。このプロセスは「教師ありファインチューニング」として知られている。

その後、オープンAIは、モデルが生成したサンプル回答に人間のテスターがスコアを付け、そのスコアを利用してモデルを訓練するという新たな手法を開発した。この訓練により、モデルは高評価の回答に似た出力を生成し、低評価の回答は避けるようになる。この手法は「人間のフィードバックによる強化学習(Reinforcement Learning with Human Feedback:RLHF)」と呼ばれ、ChatGPTのようなチャットボットの高い性能を支える重要な技術となっている。現在、このRLHFは業界全体で広く採用されている。

しかし、こうした事後学習のプロセスには多くの時間がかかる。ディープシークが示したのは、少なくともほとんどの場合、人間を介さなくても同等の結果を得られるということだ。ディープシークは、教師ありファインチューニングとRLHFを完全に自動化された強化学習のプロセスに置き換えている。そして、人間のフィードバックによるモデルの最適化ではなく、コンピューターが生成するフィードバック・スコアを使用している。

「人間によるフィードバックを省略または削減できるというのは非常に大きなことです」と語るのは、アリババの元研究部長で、現在はイスラエルを拠点とするAIコーディング・スタートアップ企業「コド(Qodo)」の共同創業者兼CEOであるイタマール・フリードマンだ。「人間が労力をかけることなく、ほぼ完全にモデルを訓練できることになります」。

安価な労働力

このアプ …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Why the next energy race is for underground hydrogen 水素は「掘る」時代に? 地下水素は地球を救うか
  2. How a top Chinese AI model overcame US sanctions 米制裁で磨かれた中国AI「DeepSeek-R1」、逆説の革新
  3. What’s next for robots 資金流入で競争加速、 2025年のロボット開発は どう動く?
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る