The first trial of generative AI therapy shows it might help with depression

生成AIによる精神疾患治療、初の臨床試験で「人間並み」効果

ダートマス大学の研究チームが開発した生成AIボットが、うつ病や不安症などの精神疾患治療において人間のセラピストと同等の効果を示したことが初の臨床試験で明らかになった。一方で研究者らは、エビデンスに基づく厳格な開発手法を欠いた市販のAIセラピーツールの急速な普及に警鐘を鳴らしている。 by James O'Donnell2025.04.02

この記事の3つのポイント

生成AIを用いたセラピー・チャットボットの臨床試験で人間と同等の効果が示された
ただし多くの企業が規制の曖昧な領域でビジネスを展開しており懸念される
セラピー目的以外の安価なチャットボットに頼る人が増える可能性も

summarized by Claude 3

生成AIを利用したセラピー・チャットボットの最初の臨床試験において、うつ病、不安症、または摂食障害のリスクを抱える患者に対して、人間による治療と同等の効果があることが示された。しかし、この結果が、こうした技術を誇大に宣伝し、規制の曖昧な領域でビジネスを展開する多数の企業に対して、ゴーサインを与えたわけではない。

ダートマス大学ガイゼル医学部の精神医学者と心理学者が率いる研究チームは、「セラボット（Therabot）」と呼ばれるツールを開発。その臨床試験の結果が2025年3月27日付け、ニュー・イングランド・ジャーナル・オブ・メディシン（New England Journal of Medicine）誌の「NEJM AI」で発表された。

セラピー用の人工知能（AI）ツールは多くのテック企業が開発している。企業はボットとの会話は、専門訓練を受けたセラピストと話すよりも頻繁かつ安価に利用でき、安全で効果的なアプローチだと主張している。こうしたビジョン自体は多くの心理学者や精神科医も共有しており、精神障害を抱える人のうち、セラピーを受けている人は半数未満で、受けている場合でも時間にして週に45分程度にすぎないと指摘する。より多くの人にセラピーを提供すべく、これまでさまざまなボットが研究者によって開発されてきたが、大きく2つの問題によって進展が妨げられてきた。

1つ目の問題は、セラピー・チャットボットが誤った発言をすることで実害をもたらす可能性があることだ。このため、多くの研究者は明確にプログラム化された手法を用いてチャットボットを開発してきた。つまり、1960年代に開発された心理療法士を模倣するコンピューター・プログラム「イライザ（ELIZA）」のように、限られた承認済みの返答から応答を引き出す仕組みである。しかし、この方法では対話が魅力を欠き、ユーザーが興味を失ってしまう。

2つ目の問題は、治療者と患者の良好な関係を示す要素である、協調や目標の共有をソフトウェアで再現することが難しいことだ。

2019年、オープンAI（OpenAI）のGPT（Generative Pre-trained Transformer）といった初期の大規模言語モデルが開発され始めた頃、ダートマス大学の研究チームは、生成AIがこれらの障壁を克服する可能性があると考えた。同チームは、エビデンスに基づいた応答を生成するよう訓練されたAIモデルの開発に着手。当初は、インターネット上の掲示板から収集した一般的なメンタルヘルスに関する対話データを用いてモデルを構築しようとしたが、その後、心理療法士との実際のセッションから得られた数千時間分の記録に基づいてモデルを改良した。

「『ふーん、なるほど』『それで？』というような反応が何度も返ってきた後、『あなたの問題は母親との関係に起因している』という返答を得ました」。この研究の主執筆者であるダートマス大学のニック・ジェイコブソン准教授（生物医学データサイエンス／精神医学）はインタビューで語った。「それは心理療法の定型的な返答に過ぎず、私たちが本当に求めているものではありませんでした」。

不満を抱いた研究チームは、エビデンスに基づいた治療法に根ざした独自のデータセットを構築することに着手した。このデータセットは最終的にセラボットに組み込まれた。それに対し、市場に出回っている多くのAIセラピー・チャットボットは、メタ（Meta）が開発した大規模言語モデル「Llama（ラマ）」のような基盤モデルをわずかに改変したものに過ぎない場合が多い。Llamaは主にインターネット上の公開データで訓練されており、特に摂食障害に関する話題では問題を引き起こす可能性がある。

「もしユーザーが『体重を減らしたい』と言った場合、そのようなAIセラピー・チャットボットはすぐに減量を支援するような返答を返すでしょう。しかし、実際にはそういったユーザーの多くはすでに低体重であることが多いのです」とジェイコブソン准教授は説明する。人間のセラピストであれば、低体重の患者がさらに体重を減らしたいと言っても、それを助長するようなことはしない。

ダートマス大学の研究チームは、セラボットをテストするために、うつ病や全般性不安障害の症状を抱えるか、摂食障害のリスクが高い210人の参加者を対象に、8週間の臨床試験を実施した。参加者の約半数にはセラボットを使用する機会が与えられ、対照群には与えられなかった。参加者はセラボットからのプロンプトに応答して会話を開始し、1日平均で約10件のメッセージをやり取りした。

うつ病を抱える参加者は症状が51％改善され、この臨床試験で最も良い結果が得られた。不安症を抱える参加者は症状が31％改善され、摂食障害のリスクを抱える参加者は、身体像や体重に関する不安が19％減少した。これらの測定値はアンケート調査による自己申告に基づいている。完璧な方法ではないが、研究者にとっては最良のツールの一つであることに変わりはない。

ジェイコブソン准教授によると、この結果は、16時間の人間による心理療法を受けた場合のランダム化比較試験で見られる効果と同等のものだが、セラボットによる治療はその約半分の時間で同様の効果を達成したという。「私は長年デジタル治療に取り組んできましたが、これほどの効果が長期間にわたって維持される例を見たことがありません」。

サイモン・フレーザー大学健康科学部で健康倫理学を専門とするジャン＝クリストフ・ベリスル＝ピポン助教授（この研究には関わっていない）は、この臨床試験の結果は非常に注目に値するものだが、他の臨床試験と同様に、この結果は必ずしも実際の治療現場での効果を示すものではないと指摘する。ベリスル＝ピポン助教授は2024年にAIセラピー・チャットボットについての記事を発表している。

「広く臨床展開するための『ゴーサイン』にはまだほど遠いでしょう」とベリスル＝ピポン助教授はメールで述べた。

問題の1つは、より広く展開する際に必要になるかもしれない「監視」である。ジェイコブソン准教授によると、臨床試験の初期段階では、セラボットが問題のある応答を返した場合に備えて、参加者から送られてくるすべてのメッセージを彼自身が個人的に監視していた（参加者はこの取り決めに同意していた）。もしセラピー・チャットボットがこのような監視を必要とするならば、大規模に展開することは難しいだろう。

私はジェイコブソン准教授に、この臨床試験の結果が急成長中のAIセラピーサイト業界を正当化するものだと思うかと尋ねた。

「まったく逆です」とジェイコブソン准教授は答えた。彼は、多くの企業が認知行動療法のようなエビデンスに基づいた治療法から得られたデータでモデルを訓練しているとは見受けられず、また、やり取りを監視するために専門教育を受けた研究者チームを配置しているとも思えないと警鐘を鳴らした。「この業界が実質的な評価をせずにあまりにも速いペースで進んでいることに強い懸念を抱いています」。

ジェイコブソン准教授は、AIセラピー・サイトが合法的かつ臨床的に効果のある治療を提供していると主張するならば、米国食品医薬局（FDA）の認可を受ける必要があると言う。しかし、これまでのところFDAはそうしたサイトの多くを調査していない。もし調査をすれば、「この分野で運営されているサイトのほとんど（おそらくすべて）は、FDAの認可を取得できないでしょう」とジェイコブソン准教授は指摘する。つまり、AIセラピー・サイトには、宣伝しているメリットを裏付ける認可を得るに足る能力が欠けているということである。

ベリスル＝ピポン助教授は、この種のデジタル・セラピーが認可を得られず、医療制度や保険制度に組み込まれない限り、その利用は非常に限定的なものにとどまるだろうと指摘する。一方で、デジタル・セラピーを利用することで利益を得られるはずの人々が、その目的のために設計されていない種類のAIに感情的なつながりやセラピーを求める可能性があるという。実際、オープンAI（OpenAI）の新しい研究では、同社のAIモデルとのやり取りが幸福感に実質的な影響を与えることが示されている。

「レシピのアイデア出しからメンタル・ヘルスの管理まで、今後も多くの人がチャットGPT（ChatGPT）やキャラクター.AI（Character.AI）のような、セラピー目的ではないがより安価なチャットボットに頼るようになる可能性が高い」とベリスル＝ピポン助教授は考えている。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。