数週間前から噂の的になっていたオープンAI(OpenAI)初の人工知能(AI)エージェント「オペレーター(Operator)」がリリースされた。Operatorは、コンサート・チケットの予約やネット通販での食料品の注文など、ブラウザー内で簡単なオンライン・タスクを実行できるWebアプリ。このアプリには、オープンAIのマルチモーダル大規模言語モデル「GPT-4o」を基盤に構築された「Computer-Using Agent(コンピューター使用エージェント)」、略して「CUA(クーア)」と呼ばれる新しいモデルが搭載されている。
Operatorは1月23日から、オープンAIのプレミアム・サービス「ChatGPT Pro(月額200ドル)」を契約している米国内のユーザーに対してoperator.chatgpt.comで提供される。オープンAIは、今後このツールを他のユーザーに対しても展開する予定だという。
オープンAIは、Operatorがアンソロピック(Anthropic)の「コンピューター・ユース(Computer Use)」(Claude 3.5 Sonnet=クロード 3.5 ソネットのバージョンの1つで、コンピューター上で簡単なタスクを実行できる)や、グーグル・ディープマインドの「マリナー(Mariner)」(Gemini=ジェミニ2.0を基盤に構築されたWebブラウジング・エージェント)など同様の競合ツールよりも性能が優れていると主張している。
世界のトップを走るAI企業3社が、エージェント・ベース・モデルの取り得る姿について同じビジョンに収束したという事実は、1つのことを明らかにしている。人工知能(AI)の覇権をめぐる闘いに、新たな領域が生まれたのだ。それは、私たちのコンピューター画面である。
「テキストや画像の生成から物事を実行することへの移行は、正しい方向です」。アレン人工知能研究所(Ai2:Allen Institute for AI)のアリ・ファルハディCEOはこう話す。「それが新たなビジネス領域を解放し、新たな問題を解決します」。
ファルハディCEOは、コンピューター画面上で物事を実行することは、エージェントにとって自然な第一歩であると考えている。「現在の技術水準で実際に機能するように、十分な制約があります。ですが同時に、人々が利用するほどに十分なインパクトを持っています」(なお、ファルハディCEOによれば、AI2もまた、独自のコンピューター使用エージェントの開発に取り組んでいるという)。
誇大宣伝を信じるな
オープンAIの発表は、今週インターネットに出回った2つの噂のうちの1つを裏付けるものでもある。噂の1つは、Operatorの詳細がリリースに先駆けてソーシャルメディア上でリークされたことを受け、オープンAIがエージェント・ベースのアプリを間もなく発表するというもの。もう1つは、オープンAIが新たな超知性を明らかにしようとしており、就任するドナルド・トランプ大統領にその概要を披露するというものだった。
この2つの噂がリンクしている可能性はあるだろうか? オープンAIの大ファンたちは知りたがった。
しかし、実際は噂どおりではなかった。オープンAIは1月22日、MITテクノロジーレビューに対し、実際に動作しているOperatorのデモを見せてくれた。このツールは、大規模言語モデルが質問に答えるだけでなく、もっと多くのことができるという可能性を垣間見せてくれる、刺激的なものである。しかし、Operatorはまだ実験段階のツールだ。オープンAIの研究者であるヤシュ・クマールは、「まだ初期段階であり、まだ間違いを犯します」と話す。
(荒唐無稽な超知性の噂については、オープンAIのサム・アルトマンCEOにお任せしよう。アルトマンCEOは1月20日、「ツイッターの誇大宣伝がまた制御不能になっている」と投稿した。「冷静になり、期待を100分の1に減らしてください!」)
アンソロピックのComputer UseやディープマインドのMarinerと同様に、Operatorはコンピューター画面のスクリーンショットを撮り、そのピクセルをスキャンしてどのような操作が可能なのかを把握する。Operatorを支えるモデル「CUA」は、人間のユーザーがネット上での操作に使うグラフィカル・ユーザー・インターフェース(ボタン、テキストボックス、メニューなど)を操るように訓練されている。画面をスキャンして何らかの操作を実行し、また画面をスキャンして別の操作を実行する、という処理が繰り返される。こうした仕組みによってこのモデルは、人間が利用できるほとんどのWebサイト上でタスクを実行できるわけだ。
「従来、モデルがソフトウェアを使用するには、専用のAPIを通して操作していました」。オープンAI所属の科学者であるレイイチロウ・ナカノは言う(API、つまりアプリケーション・プログラミング・インターフェースとは、異なるソフトウェアの相互を接続する一種の連結装置として機能するコード片のことだ)。そのため、多くのアプリやほとんどのWebサイトはAIモデルの操作対象外だったとナカノは言う。「しかし、人間が日常的に使っているのと同じインターフェイスを使えるモデルを作り出せば、これまでは利用できなかったまったく新しい、さまざまなソフトウェアを使える可能性が開けます」。
また、CUAは、タスクをより小さな手順に分解して1つずつ作業を進めようとし、行き詰まったときは同じ手順を引き返す。オープンAIによれば、CUAは、いわゆる推論モデルである「o1」や「o3」で使用されているのと似た手法で訓練されているという。
オープンAIは、コンピューター上でタスクを実行するエージェントの能力を評価するために設計された、多くの業界ベンチマークでCUAをテストした。その結果、すべてのベンチマークでCUAがComputer UseやMarinerを上回ったと同社は主張している。
例えば、エージェントがPDFファイルの結合や画像の操作といったタスクをどれだけ上手く実行できるのかテストする「OSワールド(OSWorld)」では、CUAのスコアが38.1%であるのに対し、Computer Useは22.0%となっている(ちなみに、人間のスコアは72.4%)。エージェントがブラウザー内でどれくらい上手くタスクを実行できるのかテストする「ウェブボイジャー(WebVoyager)」では、CUAのスコアが87%であるのに対し、Marinerは83.5%、Computer Useは56%だ(Marinerはブラウザー内でしかタスクを実行できないため、OSワールドのスコアはない)。
今のところ、Operatorも、ブラウザー内でのみタスクを実行できる。オープンAIは将来、CUAのより幅広い能力をAPIを介して利用できるようにし、他の開発者がAPIを使って独自のアプリを開発できるようにする予定だ。これは、アンソロピックが12月にComputer Useを公開したやり方と同じである。
オープンAIによれば、同社はこれまでレッドチームを使ってCUAの安全性のテストを重ね、ユーザーが許容できないタスク(生物兵器の作り方の調査など)を依頼したときや、CUAの機能を狂わせるように設計された指示がWebサイトに隠されていたとき、そしてモデル自体に不具合が起こったときに何が起こるか調べてきた。「対外的な副作用が伴うことをする前に処理を止め、ユーザーに情報を求めるようにモデルを訓練してきました」と、オープンAIの別の研究者、ケイシー・チュウは言う。
見ろ!全自動だ
Operatorは、テキストボックスに指示を入力するだけで使える。ただし、Operatorはユーザーのコンピューター上のWebブラウザーを呼び出す代わりに、オープンAIのサーバー上で動作しているリモートWebブラウザーにユーザーの指示を送る。この方法によってシステムがより効率良く動作すると、オープンAIは説明している。これは、Operator、Computer Use、そしてユーザー自身のコンピューター上にあるグーグルのクローム(Chrome)Webブラウザー内で動作するMarinerとの間の、もう1つの大きな違いだ。
クマールによると、Operatorはクラウド内で動作しているため、一度に複数のタスクを実行できるという。ライブ・デモでクマールは、Operatorに対し、予約サイトのオープンテーブル(OpenTable)を使ってサンフランシスコのレストラン「オクタヴィア(Octavia)」の席を午後6時半に2人分予約するように依頼した。Operatorはすぐにオープンテーブルを開き、選択肢をクリックし始めた。「ご覧の通り、私の手はキーボードから離れています」(クマール)。
オープンAIは、オープンテーブル、スタブハブ(StubHub)、インスタカート(Instacart)、ドアダッシュ(DoorDash)、ウーバー(Uber)など、多くの企業と協力している。それぞれどのような性質で協力しているのか正確には分かっていないが、Operator側からは特定のタスクで使用するのに合わせて、Webサイトをあらかじめ設定しておくことを提案しているようだ。
Operatorがオープンテーブルのドロップダウン・メニューを操作している間に、クマールはOperatorに対し、スタブハブでケンドリック・ラマーのショーのチケットを4枚探すように指示した。その指示を実行している間にもクマールは、手書きの買い物リストの写真を貼り付け、リストにある商品を自分のインスタカートに追加するように依頼した。
クマールはOperatorのタブをすばやく切り替えながら待った。「助けが必要なときや確認が必要なときは、質問が返って来ます。それに答えると処理が進行します」。
クマールはこれまで自宅でOperatorを使ってきたといい、食料品の買い物に役立っているという。「リストの写真をすばやくクリックして指示を送るだけです」とクマールは話す。
Operatorは私生活でもクマールの助手になった。「私は毎週木曜にデートしています」。そのため、クマールは毎週木曜の朝、その日の夜に2人分のテーブルが空いているレストランを5軒リストアップして送るように、Operatorに指示を出す。「もちろん、自分でもできますが、10分かかります。そして、よく忘れてしまうのです。Operatorを使えば、ワンクリックでその作業を実行できます。手間がかかりません」。