Why OpenAI’s new model is such a big deal

GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由

これまでの大規模言語モデルの進歩の大部分は言語主導だった。オープンAIが新たに発表したモデル「o1」は多段階の推論に焦点が当てられており、創薬や物理学、材料科学などの分野において役立つかもしれない。 by James O'Donnell2024.09.19

この記事の3つのポイント

オープンAIが高度な数学やコーディングに優れた新モデル「o1」をリリース
o1は博士号レベルの問題に平均78%の正解率を示した
創薬や材料科学などの分野で人間の研究者の役に立つ可能性

summarized by Claude 3

この記事は米国版ニュースレターを一部再編集したものです。

先週末、私はサマーキャンプで結婚式を挙げた。私と現在の妻は、テレビ番組『サバイバー（Survivor ）』から発想を得た一連のゲームを企画し、当日、招待客たちがそれらのゲームで競い合った。8月にゲームの計画を立てていたとき、私たちはそのうちの1つを記憶力チャレンジにしたいと考えた。友人や家族に詩の一部を暗記してもらい、その詩を伝えられたチームメイトが一連の木製タイルで再現するゲームである。

私は、オープンAI（OpenAI）の当時の最先端モデル「GPT-4o」の力を借りるのが最適だと考えた。そこで、GPT-4oに結婚式をテーマにした短い詩を作るように頼んだ。依頼する際、チームが与えられた一連のタイルを使ってその詩を再現できるように、それぞれの文字を使える回数に制約を設けた。GPT-4oは惨めなほど上手く詩を作れなかった。このモデルは、作った詩が制約の条件を満たしていると繰り返し主張したが、実際には条件を満たしていなかった。モデルは事後的に文字数を数えるのみで、プロンプトと一致しない詩を作り続けた。手作業で綿密に詩を作る時間はなかったので、私たちは詩のアイデアを捨て、ゲストには代わりにカラータイルで作られた一連の図形を暗記するチャレンジに挑んでもらった（最終的にこのゲームは大好評で、友人たちや家族はドッジボールや卵トス、旗取りゲームなどでも競い合った）。

しかし、オープンAIが先週リリースした新たなモデル「o1」（以前は「ストロベリー（Strawberry）」というコードネームで呼ばれており、その前はQ*だった）は、この種の目的でGPT-4oを圧倒するものだ。

文章の作成や編集のような言語タスクによく適したこれまでのモデルとは異なり、オープンAIのo1は、高度な数学やコーディング、その他のSTEMベースの問題に必要な、多段階の「推論」に焦点を当てている。オープンAIによれば、このモデルは「思考の連鎖」手法を用いている。「o1は、自身の間違いを認識し、修正することを学習します。扱いにくい手順を、よりシンプルな手順に分解することを学習します。現在のアプローチが上手くいかないときに、別のアプローチを試すことを学習します」と、オープンAIは自社Webサイトのブログ記事で述べている。

オープンAIのテスト結果は驚くべき成功を示している。o1は、競技プログラミング団体のコードフォーシズ（Codeforces）のコーディング問題で、上位11%以内にランクインする。幾何学、整数論、その他の数学のテーマを扱う米国数学オリンピックでは、参加する高校生の上位500人に入るレベルだ。またこのモデルは、宇宙物理学から有機化学に至るまで、さまざまな主題で博士号レベルの問題にも答えられるように訓練されている。

数学オリンピックの問題の正解率は、GPT-4oの13.4%に対し、新しいモデルは83.3%である。博士レベルの問題では、人間の専門家の69.7%、GPT-4oの56.1%に対し、平均で78%の正解率だった（これらの成績を踏まえれば、この新モデルが結婚式のゲームの詩を書くのにかなり優れていたのも当然である。ただしそれでも完璧ではなく、指示された数よりも多くのTとSを使った）。

それで、なぜo1が重要なのか？ これまでの大規模言語モデル（LLM）の進歩の大部分は言語主導だったため、言葉を解釈し、分析し、生成できるチャットボットや音声アシスタントが生み出されてきた。しかし、そのようなLLMは多くの事実を間違える上に、創薬、材料科学、コーディング、物理学などの分野の重要な問題を解決するために必要な種類のスキルがあることを示せなかった。オープンAIのo1は、それらの分野において間もなく、LLMが人間の研究者の真に役立つパートナーになるかもしれないことを示す最初の兆候の1つである。

o1は人工知能（AI）モデルにおける「思考の連鎖」に基づく推論を大衆にもたらすという点で大きな意味を持つと、LLMスタートアップ企業フィクシー（Fixie）の創業者でAI研究者のマット・ウェルシュは言う。

「同様の結果を得るのに別のツールを使う必要があるモデルとは異なり、推論能力が直接モデルに組み込まれています。それによって、人々がAIモデルに期待することの水準が押し上げられることが見込まれます」と、ウェルシュは話す。

とはいえ、オープンAIが示している「人間レベルのスキル」との比較は鵜呑みにしない方がいいと、インペリアル・カレッジ・ロンドンのイブ・アレキサンダー・デモントジョイ准教授（数学・コンピューター科学）は言う。ゼロから数学の問題を解くようなタスクに取り組むLLMと人間を有意義に比較するのは、非常に難しいのだ。

また、AI研究者たちは、o1のようなモデルがどれだけ上手く「推論」できるか測定することも、想像以上に難しいと述べている。モデルが与えられた問題に正しく答える場合、それは論理的な答えにたどり着く道筋をうまく推論したからなのだろうか？それとも、モデルに組み込まれている知識の十分な出発点に助けられた結果なのだろうか？このモデルは「オープンエンドな推論に関してはまだ不十分です」と、グーグルのAI研究者フランソワ・ショレはXへの投稿で述べている。

最後に、価格の問題がある。推論に重きを置いたこのモデルは安くはない。オープンAIのプレミアムサブスクリプションにこのモデルの一部のバージョンへのアクセスが含まれているが、APIを通じてo1を利用する開発者は、GPT-4oの3倍の料金を支払うことになる（GPT-4oが100万入力トークンあたり5ドルなのに対し、o1は15ドル）。言語に比重が置かれたタスクでは、大部分のユーザーがこの新モデルを最初に選ばないだろう。オープンAIが実施したユーザー調査によれば、そのようなタスクでは引き続き、GPT-4oの方がより良い選択肢となる。

このモデルはどのような可能性を解き放つのだろうか？研究者や研究所がアクセスし、時間や予算をかけてこの新しい方式をいじくりまわしてその限界を見つけるまではわからない。しかし、この新モデルの登場が、人間を超える推論能力のモデルを目指す競争の始まりを示す兆候であることは確かである。

チャットボットは陰謀論を信じないように人々を説得できる

研究者たちは誤った陰謀論に対抗するための新たなツールを見つけたと考えている。AIチャットボットだ。マサチューセッツ工科大学（MIT）スローン経営大学院とコーネル大学の研究チームは、陰謀論について大規模言語モデル（LLM）とチャットすると、その陰謀論に対する人々の確信度が約20%低下することを発見した。その陰謀論を信じることが自分のアイデンティティにとって重要であると主張する参加者の間でも、結果は同じだった。

この研究結果は、そのような根拠のない理論を信奉する人々とどのように関わり、教育するかという点で、重要な一歩になるかもしれないと、サイコロジー・オブ・テクノロジー・インスティテュート（Psychology of Technology Institute）の博士研究員で、AIの社会への影響を研究しているユンハオ（ジェリー）・チャンは言う。「大規模言語モデルの助けを借りれば、問題を解決できるとは言いませんが、少なくとも問題を軽減できることをこの研究は示しています。社会をより良くする方法を指摘しているのです」。詳しくは、こちらの記事を読んでほしい。

AI関連のその他のニュース

グーグルの新たなツールによって大規模言語モデルが自らの回答をファクトチェックできるようになる。データガンマ（DataGemma）と呼ばれるこのツールは、2つの手法を用いることで、信頼できるデータと照らし合わせてLLMが自らの回答をファクトチェックし、ユーザーに対して、より透明性が高い形でその回答の情報源を示せるようにする。（MITテクノロジーレビュー）
AI生成画像による性的虐待の阻止に対するホワイトハウスのコミットメントにテック企業各社が参加。オープンAI、アンソロピック（Anthropic）、マイクロソフトといった企業が署名したこの誓約は、「性的虐待の画像が作り出されるのを抑制する」ことを目指す。各社は、モデルが生成する画像に制限を設け、可能な限り訓練用データセットからヌード画像を取り除くことを約束している。（フォーチュン）
オープンAIの現在の評価額は1500億ドル。この評価額は、65億ドルの資金調達に向けて現在実施されている協議から生まれたものだ。オープンAIは運営コストがますます高くなっており、今年は50億ドルもの損失を出す可能性があることを考えると、どうすればこの評価額と辻褄が合うのか理解しがたい。（ジ・インフォメーション）

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。