ルックアップステップの追加により、AIによる医療診断コードの割り当て精度が向上(Adding a Lookup Step Makes AI Better at Assigning Medical Diagnosis Codes)

ad

2025-09-25 マウントサイナイ医療システム (MSHS)

マウントサイナイ医科大学の研究者らは、医療診断コード付与に用いるAIシステムに「ルックアップ工程」を追加することで精度を大幅に改善できることを示した。従来の生成系AIは診療記録から直接ICDコードを生成するが、しばしば誤分類や不完全なコード化を招く問題があった。新手法では、AIがまず候補コードを出力し、それを既存の正式なコード体系データベースと照合する。誤った候補は自動的に排除され、最も適切なコードが選択される仕組みだ。実験では既存のLLMベースモデルよりも再現率と精度が改善し、誤診コード付与のリスクが低下。研究チームは、この方法が医療費請求の効率化だけでなく、公衆衛生データの質向上や臨床研究の信頼性強化にも貢献するとしている。今後は電子カルテシステムとの統合や、国際的なコード標準への適用も視野に入れている。

<関連情報>

医療コーディングのための検索強化型大規模言語モデルの評価 Assessing Retrieval-Augmented Large Language Models for Medical Coding

Eyal Klang, M.D., Idit Tessler, M.D., Ph.D., Donald U. Apakama, M.D., Ethan Abbott, M.D., Benjamin S. Glicksberg, M.D., Monique Arnold, M.D., Akini Moses, M.D., +8 , and Girish N. Nadkarni, M.D.
NEJM AI  Published: September 25, 2025
DOI: 10.1056/AIcs2401161

Abstract

Accurate medical coding is vital for clinical and administrative purposes, but it is often complex and time-consuming. Large language models (LLMs) often struggle with medical coding, producing inaccuracies and hallucinations. We aimed to enhance LLM medical coding by integrating retrieval-augmented generation (RAG). We studied 500 randomly selected emergency department visits from the Mount Sinai Health System. Nine LLMs, both commercial and open-source, were evaluated for primary diagnosis coding according to the International Classification of Diseases, Tenth Revision, Clinical Modification. A RAG system enhanced LLM predictions using data from over 1 million emergency department visits. We compared RAG-enhanced codes with provider-assigned codes. A masked review by four physicians and two LLMs determined which codes — LLM- or provider-assigned — were more accurate and specific. RAG-enhanced LLMs demonstrated superior accuracy and specificity compared with provider-assigned codes. Human reviewers favored RAG-enhanced Generative Pretrained Transformer 4 (GPT-4) for accuracy in 447 instances, versus 277 instances for provider-assigned codes (P<0.001). For specificity, RAG-enhanced GPT-4 was preferred in 509 cases, compared with 181 for provider-assigned codes (P<0.001). Smaller open-access models also showed significant improvement with RAG, demonstrating that integrating RAG with LLM medical coding may reduce errors and improve clinical documentation. (Funded by the National Center for Advancing Translational Sciences and the Office of Research Infrastructure Programs of the National Institutes of Health.)

医療・健康
ad
ad
Follow
ad
タイトルとURLをコピーしました