OpenAI just released GPT-4.5 and says it is its biggest and best chat model yet

限界説に挑むオープンAI、最後の非推論モデル「GPT-4.5」　

オープンAIは大規模言語モデル（LLM）の最新版となるGPT-4.5をリリースした。規模の拡大で性能向上を目指す同社の古典的なアプローチにおける、最後のリリースになる可能性がある。 by Will Douglas Heaven2025.03.02

この記事の3つのポイント

GPT-4.5はオープンAIの主要大規模言語モデルの新バージョンである
GPT-4.5は会話能力に優れ、ハルシネーションが少ないのが特徴
ハイブリッドモデルに移行するGPT-5までの一時的なつなぎとの見方も

summarized by Claude 3

オープンAI（OpenAI）は2月27日、同社の主要大規模言語モデル（LLM）の新バージョンとなるGPT-4.5をリリースした。同社はGPT-4.5を、これまでで最大かつ最高の汎用チャットモデルであると主張。オープンAIの研究科学者であるミア・グレイスは「私たちにとって、間違いなく一歩前進です」と話す。

いわゆる推論（reasoning）モデルであるo1およびo3のリリース以来、オープンAIは2つの製品ラインを持つ。今回のGPT-4.5は、非推論製品ラインナップの一部である。グレイスの同僚で同じく研究科学者のニック・ライダーは、GPT-4.5を「古典的なGPTシリーズのうちの1つ」と呼んでいる。

月額200ドルのチャットGPTプロ（ChatGPT Pro）アカウントを持っていれば、今すぐGPT-4.5を試すことができる。オープンAIによると、3月第1週から他のユーザーに対しても展開されるという。

オープンAIはGPTモデルをリリースするたびに、モデルの規模を大きくするほど性能が高くなることを示してきた。しかし、そのアプローチが壁にぶつかっているという話もよく聞く。オープンAIの元主任科学者であるイリヤ・サツケバーも同意見だ。GPT-4.5に関するオープンAIの主張は、こうしたスケーリング則に否定的な人々に対する挑発のように感じられる。

すべての大規模言語モデルは、訓練に使われた何十億もの文書全体からパターンを拾い上げる。比較的小規模なモデルは構文や基本的な事実を学習する。より大きなモデルは、話し手の言葉が敵意を示している場合など、感情面での手がかりとなるようなより具体的なパターンを見つけられる。オープンAIのライダーはこう説明する。「人間の会話から生まれるそのようなすべての微妙なパターン。そういった小さな断片を、ますます大規模化するモデルが拾い上げるようになります」。

「そうしたモデルには、温かく、直感的で、自然で、流れるような会話をする能力があります」と、グレイスは言う。「特に、ユーザーの期待していることがより暗示的な場合に、ユーザーの意味することをよりしっかり理解する力があると考えています。それが、ニュアンスのある思慮深い返答につながります」。

「現時点で、エンジン部分がどのようなものかはだいたいわかっています。今度はそれを、実際に動かしてみる番です」と、ライダーは言う。「主に、演算やデータのスケールアップ、より効率的な訓練方法の発見、そして新たな領域の開拓の実践です」。

オープンAIは新モデルの規模を正確には明かさない。しかし、GPT-4oからGPT-4.5への規模の飛躍は、GPT-3.5からGPT-4oへの飛躍と同じくらいだという。GPT-4には1兆8000億個ものパラメーターがあると専門家たちは推定しており、それらの値がモデルの訓練時に微調整される。

GPT-4.5は、前モデルのGPT-4oと同様の手法で訓練された。それには、人間主導のファインチューニングや、人間のフィードバックによる強化学習（Reinforcement Learning with Human Feedback：RLHF）が含まれる。

「知的なシステムを生み出す鍵は、私たちが長年追い求めてきたレシピにあります。それは、より多くのリソースを投入することでより知的なシステムが得られるような、拡張性のある理論的枠組を見つけることです」（ライダー）。

段階的に回答に取り組むo1やo3などの推論モデルとは異なり、GPT-4.5のような通常の大規模言語モデルは、最初に行き着いた回答を出力する。しかし、GPT-4.5はより汎用的なモデルである。オープンAIが昨年開発した「SimpleQA（シンプルQA、科学やテクノロジーからテレビ番組やビデオゲームまで、さまざまなテーマに関する問題が含まれる一種の一般知識クイズ）」でテストしたところ、GPT-4oのスコアは38.6%、o3-miniは15%であったのに対し、GPT-4.5のスコアは62.5%だった。

さらに、GPT-4.5の回答は、ハルシネーション（幻覚）と呼ばれるでっち上げの回答がはるかに少ないと、オープンAIは主張している。同じテストにおいてGPT-4.5は37.1%の確率で回答をでっち上げたのに対し、GPT-4oは59.8%、o3-miniは80.3%だった。

しかし、SimpleQAは1つのベンチマークに過ぎない。大規模言語モデルを比較するためのより一般的なベンチマークであるMMLU（Massive Multitask Language Understanding）など、他のテストでは、オープンAIの以前のモデルからの得点向上はわずかだった。また、科学と数学に関する標準的なベンチマークでは、GPT-4.5のスコアはo3よりも悪い。

GPT-4.5の特筆すべき魅力は、その会話能力にあるようだ。オープンAIが雇った人間のテスターたちは、日常的な質問、専門的な質問、詩を考え出すなどの創造的なタスクでは、GPT-4oよりもGPT-4.5の方が好ましかったと言っている（ライダーによれば、GPT-4.5は昔ながらのインターネット・アスキーアートも得意だという）。

しかし、何年もトップに君臨してきたオープンAIは今、人々の厳しい評価に直面している。「感情的知性と創造性に重点を置くことは、ライティングコーチやブレーンストーミング仲間といったニッチな使用事例にはぴったりです」と、企業顧客向けに大規模言語モデルを開発するスタートアップ企業、ライター（Writer）のワシーム・アルシク共同創業者兼CTO（最高技術責任者）は言う。

「しかしGPT-4.5は、同じ古い車にピカピカの新しい塗装をしただけのように感じます」と、アルシクCTOは話す。「より多くの演算とデータをモデルに投入すれば、会話をよりスムーズはできますが、ゲームチェンジャーにはなりません」。

「エネルギーコストや、ほとんどのユーザーが日常的な使用においてその違いに気づかないことを考えると、そこに労力をかける価値はありません。同じレシピで規模を拡大し続けるよりも、効率性や残された問題解決に軸足を移した方がいいと思います」と、同CTOは言う。

オープンAIのサム・アルトマン最高経営責任者（CEO）は、GPT-4.5がオープンAIの古典的ラインナップの最後のリリースとなり、GPT-5は汎用大規模言語モデルと推論モデルを組み合わせたハイブリッドモデルになると述べている。

「GPT-4.5は、オープンAIが密室で何かもっと大きなものを作り上げている間の、つなぎにすぎません」とアルシクCTOは言う。「それが完成するまでの一時的な停留所のように感じられます」。

それでもオープンAIは、大規模化アプローチにはまだ十分な可能性があると主張している。「個人的には、ボトルネックを克服する方法を見つけて規模を拡大し続けることについて、非常に楽観的です」と、ライダーは言う。「人間のあらゆる知識にわたってパターンマッチングすることには、非常に深遠で興味深いなものがあると思います」。

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。

▼Promotion