KADOKAWA Technology Review
×
ディープシークの衝撃再び? 話題の中国製AIエージェントを試してみた
Stephanie Arnett/MIT Technology Review
Everyone in AI is talking about Manus. We put it to the test.

ディープシークの衝撃再び? 話題の中国製AIエージェントを試してみた

中国のAI企業がまた世界を驚かせた。大規模言語モデル「ディープシーク(DeepSeek)」に続き、汎用AIエージェント「マヌス(Manus)」が話題になっている。本誌はマヌスを試用し、その使い勝手や能力を確認してみた。 by Caiwei Chen2025.03.13

この記事の3つのポイント
  1. 中国発の汎用AIエージェント「マヌス」が世界的な注目を浴びている
  2. マヌスは複数のAIモデルを統合し幅広いタスクを自律的に実行できる
  3. 課題も多く完璧とは言えないものの、その能力は有望だと言えそうだ
summarized by Claude 3

3月5日に汎用人工知能(AI)エージェント「マヌス(Manus)」が発表されて以来、ネット上で瞬く間に広まった。開発したのは、武漢を拠点とするスタートアップ企業「蝴蝶効応(Butterfly Effect)」だが、その話題は中国国内にとどまらない。ツイッターの共同創業者であるジャック・ドーシーや、ハギング・フェイス(Hugging Face)で製品部門を率いるヴィクター・ムスターなど、テクノロジー業界の著名人がその性能を称賛し、世界中で話題になっている。1月にその予想外の能力と中国発という点で業界を驚かせたAIモデルと比較して、「第2のディープシーク(DeepSeek)」と呼ぶ声さえある。

開発者によると、マヌスは世界初の汎用AIエージェントであり、複数のAIモデル(例えば、アンソロピック(Anthropic)の「Claude 3.5 Sonnet(クロード3.5ソネット)」や、アリババ(Alibaba)のオープンソース・モデル「Qwen(クウェン)」のファイン・チューニング版を活用し、さらに独立して動作する複数のAIエージェントを統合することで、幅広いタスクを自律的に実行できるという。この点で、単一の大規模言語モデル(LLM)を基盤とし、主に会話型のやり取りを目的とするディープシークのようなAIチャットボットとは異なる。

大々的な宣伝がされているにもかかわらず、実際にマヌスを試すことができた人はごくわずかだ。現在、待機リストに登録したユーザーのうち、招待コードを受け取ったのは1%にも満たない。待機リストの正確な登録者数は不明だが、マヌスのディスコード(Discord)チャンネルには18万6000人以上のメンバーがいることから、その関心の高さがうかがえる。

MITテクノロジーレビューはマヌスのアクセス権を入手し、実際に試用してみた。その感想は、まるで非常に知的で有能なインターンと一緒に作業しているような感覚だった。時折、指示された内容を正しく理解できなかったり、誤った推測をしたり、作業を急ぐために手を抜いたりすることもあるが、マヌスはその理由を明確に説明できる。また、驚くほど順応性が高く、詳細な指示やフィードバックを与えることで結果は大幅に改善されていく。つまり、「有望だが完璧ではない」ということだ。

マヌスは、開発元の親会社が2023年に発表したAIアシスタント「モニカ(Monica)」と同様に、グローバルなユーザー向けに設計されている。標準言語は英語に設定されており、シンプルでミニマルなデザインが特徴だ。

マヌスを使用するには、有効な招待コードを入力する必要がある。ログインすると、ランディングページに誘導される。そのデザインは、チャットGPT(ChatGPT)やディープシークとよく似ており、画面左側には過去のセッションが表示され、中央にはチャット入力ボックスが配置されている。ランディングページには、ビジネス戦略の立案、対話型学習、パーソナライズされた瞑想の音声ガイドなど、同社が厳選したサンプルタスクも掲載されている。

オープンAI(OpenAI)の「ディープ・リサーチ(Deep Research)」などの推論(Reasoning)を活用したエージェント・ツールと同様に、マヌスはタスクを複数のステップに分解し、自律的にWebを検索して必要な情報を取得できる。特にユニークなのは「マヌスのコンピューター(Manus’s Computer)」というウィンドウだ。これにより、ユーザーはマヌスの動作を観察できるだけでなく、必要に応じていつでも介入できる。

テストを実行するため、私はマヌスに次の3つのタスクを与えた。

(1)中国のハイテク情報を報道する著名な記者のリストを作成する
(2)ニューヨーク市で2つのベッドルームを備えた物件を検索する
(3)MITテクノロジーレビューが毎年作成する「35歳未満のイノベーター」リストの候補者を推薦する

結果は以下のとおりだ。

タスク1:記者リストの作成

マヌスが提示した最初の記者リストには5人の名前しかなく、その下に「次点」として5人の名前が示されていた。一部のジャーナリストには代表的な実績が付記してあるのに、他のジャーナリストにはないことに気づいた。私はマヌスにその理由を尋ねた。マヌスが提示した理由は笑えるほど単純で、「手を抜いた」というものだった。

「時間の制約もあったので、調査を効率化しようとした」とマヌスは説明した。私が一貫性と徹底した調査を強く求めると、マヌスは30人のジャーナリストの包括的なリストを提示し、現在所属する報道機関と代表的な実績をリストアップした(私自身の名前が、尊敬する多くの同業者たちと共にリストに入っていたのはうれしかった)。

人間のインターンやアシスタントと同様に、フィードバックを与えることでマヌスが修正し、それに応じた対応を取った点には感心した。また、最初は一部のジャーナリストの所属先変更を見落としていたものの、結果の一部を再確認するよう指示すると、すぐに修正してくれた。さらに、出力結果をワードやエクセルのファイルとしてダウンロードできるため、編集や共有が簡単にできる点も評価できる。

ただし、マヌスは有料記事の取得には苦戦した。頻繁に「CAPTCHA(キャプチャ)」によるブロックを受けたのだ。私はマヌスの動作をリアルタイムで追跡できたため、必要に応じて手動でCAPTCHAをクリアできたが、それでも多くのメディアサイトが「不審な動作」と判断し、マヌスをブロックした。この点は大きな改善の余地がある。今後のバージョンでは、このような制約に直面した際に、積極的にユーザーに助けを求める機能があると便利だろう。

タスク2:物件の検索

アパート検索では、私はマヌスに複雑な条件を提示した。予算、広々としたキッチン、屋外スペース、マンハッタンのダウンタウンへのアクセス、主要な鉄道駅まで徒歩7分以内などの要件を指定した。マヌスは当初、「何らかの屋外アクセスがある」という条件を文字通りに解釈しすぎて、専用のテラスやバルコニーがない物件を完全に除外してしまった。しかし、追加の説明と指導を行ったところ、より幅広く有用なリストを作成できるようになり、推奨物件を見やすい箇条書きで整理して提示できるようになった。

最終的な出力は、まるでニューヨーク・タイムズのレビューサイト「ワイヤカッター(Wirecutter)」から出てきたかのような洗練されたものになった。「総合1位」「最もお得」「高級オプション」といったサブタイトルが付けられており、情報が整理されていた。このタスク全体(やり取りを含めて)にかかった時間は30分未満で、ジャーナリストのリスト作成(1時間強)よりもはるかに短かった。これは、おそらく不動産リストのような情報は、インターネット上で体系的に整理され、容易にアクセスできるためだろう。

タスク3:35歳未満のイノベーター推薦

このタスクは最も対象範囲が広いものだった。私はマヌスに、今年の「35歳未満のイノベーター」リストに50人を推薦するよう依頼した。
このリストの作成には膨大な作業が伴い、通常、毎年数百人の候補者が推薦される。そのため、マヌスがどれだけうまくやり遂げることができるのか興味があった。マヌスはタスクを複数のステップに分解した。過去のリストを確認して選考基準を把握する、候補者を特定するための検索戦略を立てる、候補者の名前をまとめる、世界中から多様な候補者を選出する、などのプロセスを踏んだ。

マヌスが最も多くの時間を要したのは、検索戦略の策定だった。マヌスはその手法の詳細を明示しなかったが、「マヌスのコンピューター」ウィンドウを見ると、権威ある大学の研究機関のWebサイト、技術賞の発表記事、ニュース記事などを高速でスクロールしながら情報を収集しているのがわかった。しかし、学術論文や有料メディアの記事にアクセスしようとすると、再び障害に直面した。

インターネット上で情報を探し続けること3時間。その間、マヌスは(当然ながら)何度も私に検索条件を絞り込めないか尋ねてきた。しかし、最終的に完全な経歴とプロフィール付きで提示できた候補者は、わずか3人だった。私は50名の完全なリストを提示するよう再度要求した。するとマヌスは最終的にリストを作り上げたものの、特定の学術機関や分野に大きく偏っており、調査が不完全であることが明らかだった。

私はこの問題を指摘し、中国から5人の候補者を見つけるよう依頼したところ、マヌスは何とか5人のリストを作成したが、その結果は中国メディアで頻繁に取り上げられる著名人に偏っていた。最終的には、システムから「入力するテキストが多すぎると、マヌスの性能が低下する可能性がある」と警告されたため、これ以上の作業はあきらめざるを得なかった。

私の評価

全体的に、マヌスは非常に直感的なツールであり、コーディングの経験がある人にもない人にも適していると感じた。3つのタスクのうち2つでは、ディープ・リサーチに同じタスクを試させた場合よりも優れた結果が得られたが、完了までにかなり時間がかかった。

マヌスは、対象を明確に絞ったうえで、インターネット上の公開情報を徹底的に調査するような分析タスクに最も適しているようだ。言い換えれば、熟練した人間のインターンが1日の作業で完了できるようなタスクに限定するのがベスト、ということだ。

とはいえ、すべてが順調に進むわけではない。マヌスは頻繁にクラッシュし、システムが不安定になることもあり、大量のテキスト処理を求められると苦戦することがある。新しいリクエストを開始しようとした際に、「現在サービス負荷が高いため、タスクを作成できません。数分後にもう一度お試しください」というメッセージが何度か画面に表示されたこともあったし、「マヌスのコンピューター」ウィンドウが特定のページで長時間フリーズすることもあった。

マヌスの故障率はChatGPT DeepResearchよりも高く、この問題についてはマヌスの主任研究者である季逸超(ピーク・ジー)が「開発チームが取り組んでいる」と説明している。しかし、中国メディア「36Kr」によると、マヌスが1つのタスクを処理するのにかかるコストはおよそ2ドルで、ディープリサーチのわずか10分の1だ。もしマヌスの開発チームがサーバーインフラを強化すれば、このツールは個人ユーザー、特にホワイトカラーの専門職、独立系開発者、小規模チームにとって有力な選択肢となるだろう。

最後に、マヌスの作業プロセスは非常に透明性が高く、協力的である点が特に価値があると感じた。作業の途中で積極的に質問を投げかけ、重要な指示を「知識」としてメモリに保持し、将来的に再利用できるようになっているため、ユーザーごとに簡単にカスタマイズ可能なエージェント体験を実現できる。また、各セッションを再生して共有できるのも、とても便利な機能だ。

私は、プライベートでも仕事でも、あらゆる種類のタスクにマヌスを使い続けることになるだろう。ディープシークとの比較が本当に適切かどうかはわからない。しかし、マヌスは、中国のAI企業が単に欧米企業の後を追っているわけではないことを示す、さらなる証拠となる。彼らは単に基盤モデルの革新を進めているだけでなく、独自の方法で自律型AIエージェントの普及を積極的に推進しているのだ。

人気の記事ランキング
  1. AI reasoning models can cheat to win chess games 最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに
  2. OpenAI just released GPT-4.5 and says it is its biggest and best chat model yet 限界説に挑むオープンAI、最後の非推論モデル「GPT-4.5」 
チェン・ツァイウェイ [Caiwei Chen]米国版 中国担当記者
MITテクノロジーレビューの中国担当記者として、グローバルなテクノロジー業界における中国に関するあらゆるトピックを取材。これまで、ワイアード(Wired)、プロトコル(Protocol)、サウスチャイナ・モーニング・ポスト (South China Morning Post)、レスト・オブ・ワールド(Rest of World )などのメディアで、テクノロジー、インターネット、文化に関する記事を執筆してきた。ニューヨークのブルックリンを拠点に活動している。
▼Promotion
U35イノベーターと考える 研究者のキャリア戦略 vol.2
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る