医療助言を行うAIチャットボットのリスクを警告する新研究(New study warns of risks in AI chatbots giving medical advice)

ad

2026-02-10 オックスフォード大学

英オックスフォード大学が発表した研究は、AIチャットボットが医療助言を行うことのリスクに警鐘を鳴らしている。研究では、一般的な症状について質問した際、チャットボットが不完全または誤解を招く助言を提示し、利用者の判断を危険な方向へ導く可能性が示された。特に、緊急受診が必要なケースでも自己治療を促したり、症状の深刻さを過小評価する傾向が確認された。研究者らは、AIが医療専門家の代替となることは現時点では不適切であり、文脈理解や責任の所在が不明確である点を問題視している。一方で、適切な規制と設計の下では、AIは情報補助ツールとして有用になり得るとも指摘した。本研究は、医療分野でのAI活用には慎重な運用と明確なガイドラインが不可欠であることを示している。

<関連情報>

一般市民に対する医療助手としての法学修士の信頼性:ランダム化登録研究 Reliability of LLMs as medical assistants for the general public: a randomized preregistered study

Andrew M. Bean,Rebecca Elizabeth Payne,Guy Parsons,Hannah Rose Kirk,Juan Ciro,Rafael Mosquera-Gómez,Sara Hincapié M,Aruna S. Ekanayaka,Lionel Tarassenko,Luc Rocher & Adam Mahdi
Nature Medicine  Published:09 February 2026
DOI:https://doi.org/10.1038/s41591-025-04074-y

図1

Abstract

Global healthcare providers are exploring the use of large language models (LLMs) to provide medical advice to the public. LLMs now achieve nearly perfect scores on medical licensing exams, but this does not necessarily translate to accurate performance in real-world settings. We tested whether LLMs can assist members of the public in identifying underlying conditions and choosing a course of action (disposition) in ten medical scenarios in a controlled study with 1,298 participants. Participants were randomly assigned to receive assistance from an LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested alone, LLMs complete the scenarios accurately, correctly identifying conditions in 94.9% of cases and disposition in 56.3% on average. However, participants using the same LLMs identified relevant conditions in fewer than 34.5% of cases and disposition in fewer than 44.2%, both no better than the control group. We identify user interactions as a challenge to the deployment of LLMs for medical advice. Standard benchmarks for medical knowledge and simulated patient interactions do not predict the failures we find with human participants. Moving forward, we recommend systematic human user testing to evaluate interactive capabilities before public deployments in healthcare.

医療・健康
ad
ad
Follow
ad
タイトルとURLをコピーしました