KADOKAWA Technology Review
×
ディープシークは省エネではない? 推論ブームで新たな懸念
Sarah Rogers / MITTR | Photo Getty
DeepSeek might not be such good news for energy after all

ディープシークは省エネではない? 推論ブームで新たな懸念

中国企業が開発した大規模言語モデル「DeepSeek-R1」が注目された理由の1つが、効率性にある。ただ、消費電力に限れば、必ずしも「省エネ」とは言えないことが分かった。 by James O'Donnell2025.02.06

この記事の3つのポイント
  1. DeepSeek-R1は訓練段階ではエネルギー効率が高い一方で推論段階では効率が低い
  2. R1の手法を他社が模倣することでAI全体の電力消費が増加する可能性がある
  3. 思考の連鎖モデルの普及によりAIのエネルギー効率改善の効果が相殺される恐れも
summarized by Claude 3

中国発のAIモデル「DeepSeek-R1(ディープシーク-R1)」が話題を独占している。さまざまな業界関係者が多種多様な講評を残しているが、正確さはまちまちだ。このモデルが個人データを収集しているという話(その可能性はある)、これまでのAIの常識を覆すという話(結論を出すにはまだ早いが、本誌のウィル・ダグラス・ヘブン編集者による解説記事は必読)、そしてDeepSeek-R1の斬新で効率的な手法により、現状のAIが消費する大量の電力は必然ではないことが示されたという話などが飛び交っている。

このうち、最後の主張は誤解を招くものである。その理由が、MITテクノロジーレビューに新たに提供されたデータから明らかになった。この初期データは、DeepSeek-R1の小規模モデルのひとつに少数のプロンプト(指示テキスト)を与えた結果に基づいており、同程度の規模を持つメタ(Meta)のモデルと比較して、回答生成時により多くの電力を消費する可能性を示している。DeepSeek-R1の課題は、訓練段階ではエネルギーを節約できるものの、質問への回答時にはより多くのエネルギーを消費し、さらに生成される回答が長くなる傾向がある点である。

さらに、DeepSeek-R1の手法に触発された他のテクノロジー企業が、同様の低コスト推論(reasoning)モデルの開発に乗り出す可能性があることから、AI全体の電力消費に対する見通しはすでに楽観的とは言いがたい状況になっている。

大規模言語モデル(LLM)の処理は大きく2つの段階に分けられる。訓練と推論(inference)だ。訓練は数カ月に及ぶプロセスで、この段階でモデルはデータから学習する。その後、世界中の人々がモデルに何かを質問するたびに実行されるのが推論である。これらの処理はいずれも通常、データセンターで実行され、チップの稼働やサーバーの冷却に大量の電力を消費する。

DeepSeek-R1の訓練段階について、開発チームは「専門家の混合(MoE:Mixture of Experts)」と呼ばれる手法を改良し、訓練段階の特定の時点で数百億あるパラメーター(より良い答えを生成するためにモデルが利用する「つまみ」)のうちの一部だけを使用するようにした。さらに特筆すべきは、強化学習の手法も改良し、モデルが出力した内容を評価して、回答のさらなる改善に利用するようにしたことである。これには通常、人力によるアノテーションが利用されるが、DeepSeek-R1の開発チームはそのプロセスの自動化に成功した。

訓練の効率を上げる手法の登場は、AI企業各社がモデルの性能を一定水準に引き上げるまでに消費する電力を節約できることを意味するように思える。しかし、現実にはそううまくはいかない。

「より賢いシステムを実現することが最優先」となるため、「企業はモデルの訓練にかける投資を減らすのではなく、むしろ増やすようになります」。アンソロピック(Anthropic)の共同創業者で最高経営責任者(CEO)を務めるダリオ・アモデイは自身のブログでこう指摘している。企業が投資に対して多くの見返りを得られるようになれば、さらに投資する価値があるとみなされ、結果としてさらに多くの電力が消費されることになるのだ。「コスト効率の恩恵はすべて、より賢いモデルの訓練に費やされることになり、この流れに歯止めがかかるのは企業の資金力が限界に達したときだけです」。これは「ジェボンズのパラドックス」の典型例である。

AI開発競争のこれまでの経緯を見る限り、訓練段階にはこの指摘がよく当てはまる。しかし、さらに興味深いのは推論(inference)段階での電力消費である。

DeepSeek-R1は推論(reasoning)モデルとして設計されており、論理、パターン認識、数学といった、典型的な生成AIが苦手とする処理で優れた能力を発揮する。推論モデルは、これを「思考の連鎖(Chain of Thought)」と呼ばれるプロセスを通じて実現している。このプロセスでは、AIモデルがタスクを複数の小さな処理に分解し、それぞれを論理的な順序に従って実行して結論を導き出す。

DeepSeek-R1にもこのプロセスが見られる。「相手の気持ちを傷つけないように嘘をつくことは許されるか」と尋ねると、モデルはまず功利主義的観点から、すぐに得られる利益と長期的に生じうる損失を天秤にかけて回答を導き出そうとする。続いて、普遍的な法則として適用できる原則に基づいて行動すべきとするカント倫理学の視点からも考察をする。このように異なる観点から検討を重ねた上で、最終的な結論を提示するのだ(ちなみにDeepSeek-R1は、「親切さと被害防止が最優先される状況では嘘は概して容認されるが、普遍的な解は存在せず、ケースバイケースで判断すべき」と回答している)。

思考の連鎖モデルは、例えば57のテーマに関して知識と問題解決能力を評価する「大規模マルチタスク言語理解(MMLU:Massive Multitask Language Understanding)」など、特定のベンチマークで高い性能を発揮する傾向にある。しかし、DeepSeek-R1の場合、回答を生成する際により多くの電力を消費することが明らかになりつつある。初期データにより、他社モデルとのエネルギー消費差についての手がかりが得られている。

スコット・チェンバリンは長年マイクロソフトに勤めた後、インテルに移り、その後独立して、特定のタイプのデジタル活動が環境に与えるコストを算出するツールの開発に取り組んでいる。チェンバリンは、DeepSeek-R1が回答を生成する際にGPU(画像処理装置)がどれだけのエネルギーを消費するかを検証する暫定的なテストを実施した。ただし、この実験にはいくつかの制約がある。彼がテストしたのはDeepSeek-R1の中規模バージョンのひとつだけで、使用したプロンプトも少数に限られている。また、他社の推論モデルとの直接的な比較も困難だった。

DeepSeek-R1は「事実上、そこそこ普及している推論モデルの中で、私たちが自由にアクセスできる唯一のもの」だと彼は述べている。オープンAI(OpenAI)の「o1」が最も近い競合モデルだが、同社はそのモデルを外部に公開しておらず、テストが不可能であるため、彼はパラメーター数が同じ(700億)のメタのモデル「Llama(ラマ) 3.3 70b」と比較した。

「嘘をつくことは許されるか」と尋ねるプロンプトに対して、DeepSeek-R1は1000語の回答を生成した。このプロセスには1万7800ジュールのエネルギーが必要で、これはおおよそ10分間のユーチューブ(YouTube)動画をストリーミングするのに相当するエネルギー量である。この結果は、Llamaが同じプロンプトへの回答に要したエネルギー量より41%多かった。また、40のプロンプトを使用した検証の結果、全体としてDeepSeek-R1はLlamaと同程度のエネルギー効率を示したものの、より長い回答を生成する傾向があり、その結果、平均で87%多くのエネルギーを消費することが確認された。

一般的な従来型の生成AIモデルと、思考の連鎖による推論モデルの違いを考慮すると、この結果をどのように解釈すべきだろうか。昨年10月にミシガン大学のチームが実施したテストでは、700億パラメーターを持つメタのモデル「Llama 3.1 70b」は、1つの回答を生成するのに平均512ジュールしか消費しないことが明らかになっている

本記事について、ディープシークとメタにコメントを求めたものの、いずれからも回答は得られなかった。

繰り返しになるが、依然として多くの不確実性が存在する。これらのモデルはすべて異なる目的のために設計されており、DeepSeek-R1が競合モデルと比較してどれだけのエネルギーを消費するかを科学的に正確な方法で検証した研究はまだ存在しない。しかし、モデルのアーキテクチャだけを考慮しても、思考の連鎖モデルは妥当な回答を導き出すために、より多くのエネルギーを必要とすることは明らかである。

ハギング・フェイス(Hugging Face)のAI研究者で気候担当責任者を務めるサーシャ・ルッチオーニは、ディープシークをめぐる熱狂が、同社の手法を必要のない領域にまで適用しようとする過剰なブームを引き起こすのではないかと懸念している。

「このやり方をあらゆるところで使い始めたら、推論処理が消費する電力量は爆発的に増加するでしょう」と、彼女は語る。「公開されるモデルがすべて演算集約的な思考の連鎖モデルになれば、エネルギー効率の改善はすべて帳消しになります」。

これはAIがすでに通ってきた道である。2022年にChatGPT(チャットGPT)が登場するまでは、AIの主戦場は「検出」だった。これは要するに、大量のテキストから情報を発見したり、画像を分類したりすることを指す。しかし2022年、AIの焦点は検出から生成へと移行した。生成AIは、より良い予測を繰り返し改良し続けることを基盤としており、その分、より多くの電力を消費する。

「それが最初のパラダイム・シフトでした」と、ルッチオーニは語る。彼女の研究によれば、このパラダイム・シフトの結果、同様の処理に必要な電力量は桁違いに増加した。ディープシークをめぐる熱狂が続けば、テック企業はその勢いに押されて、思考の連鎖型モデルをあらゆる分野に導入する可能性がある。ちょうど、生成AIがグーグル検索からメッセージング・アプリに至るまで、あらゆるところに組み込まれたように。

私たちはすでに、思考の連鎖型推論への転換に向かっているようだ。オープンAIは1月31日、推論モデル「o3」の提供拡大を発表した。しかし、DeepSeek-R1などのモデルについて詳細な検証が進むまでは、電力コストの実態は明らかにならないだろう。

「このトレードオフがビジネスの観点から投資に見合うかどうかにかかっています」。エア・ストリート・キャピタル(Air Street Capital)の創業者兼ゼネラル・パートナーであるネイサン・ベナイクは言う。「企業が推論モデルの導入を控えるほど意思決定に影響を与えるためには、電力コストが相当高額である必要があるでしょう」。

人気の記事ランキング
  1. Why the next energy race is for underground hydrogen 水素は「掘る」時代に? 地下水素は地球を救うか
  2. This quantum computer built on server racks paves the way to bigger machines ザナドゥ、12量子ビットのサーバーラック型光量子コンピューター
  3. How a top Chinese AI model overcame US sanctions 米制裁で磨かれた中国AI「DeepSeek-R1」、逆説の革新
ジェームス・オドネル [James O'Donnell]米国版 AI/ハードウェア担当記者
自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン(FRONTLINE)』の調査報道担当記者。ワシントンポスト、プロパブリカ(ProPublica)、WNYCなどのメディアにも寄稿・出演している。
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る