フラッシュ2023年11月24日
-
人工知能(AI)
医学に関するチャットGPTの回答、正答率は文献数と関連
by MITテクノロジーレビュー編集部 [MIT Technology Review Japan]横浜市立大学の研究チームは、米オープンAI(OpenAI)のチャットボット「チャットGPT(ChatGPT)」が医学に関する質問に対して回答する際の正誤を左右する要因を明らかにした。
研究チームは、日本の医師国家試験3年分をチャットGPTに出題し、その正答率と回答の一貫性を集計した。その結果、大規模言語モデル「GPT-3.5」を使った場合(正答率56.4%、回答の一貫性56.5%)よりも、「GPT-4」を使った場合(正答率81.0%、回答の一貫性88.8%)の方が、正答率、回答の一貫性ともに優れていた。
続いて試験問題を出題形式(単肢選択問題/多肢選択問題/計算問題)と出題内容(循環器学、小児科学などの分野)に応じて分類し、正答率に関係する因子を探索した。チャットGPTが、インターネット上の膨大なテキストデータで学習していることから、インターネット上の情報量の指針の一つとして、世界的な学術文献・引用情報データベースであるウェブ・オブ・サイエンス・コア・コレクション(Web of Science Core Collection)に収蔵されたすべての文献数を集計した。その結果、出題内容と正答率は、出題分野における総文献数と有意に関連することが明らかになった。また、出題形式や回答の一貫性も正答率に関連することが分かった。
研究成果は11月3日、インターナショナル・ジャーナル・オブ・メディカル・インフォマティクス(International Journal of Medical Informatics)誌にオンライン掲載された。
(笹田)
-
- 人気の記事ランキング
-
- A Google Gemini model now has a “dial” to adjust how much it reasons 推論モデルは「考えすぎ」、グーグルがGeminiに調整機能
- What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
- Anthropic can now track the bizarre inner workings of a large language model 大規模言語モデルは内部で 何をやっているのか? 覗いて分かった奇妙な回路
- Meet the researchers testing the “Armageddon” approach to asteroid defense 惑星防衛の最終戦略 科学者たちが探る 「核爆発」研究の舞台裏