2026-03-06 東京大学,理化学研究所

開発した医療マルチモーダルモデルの出力例
<関連情報>
- https://www.rcast.u-tokyo.ac.jp/ja/news/release/20260306.html
- https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/C4-15.pdf
医療用大規模日本語視覚言語モデルの構築
安道健一郎,黒瀬優介,菊地智博,牧元久樹,小寺聡,小林和馬,合田和生,村尾晃平,吉田浩,田村孝之,合田憲人,喜連川優,原田達也
言語処理学会第32回年次大会 発表論文集(発表予定:2026年3月9日~13日)
概要
視覚言語モデル(VLM)は社会に広く普及している一方、医療機関では患者情報を取り扱う関係上、導入があまり進んでいない。そのためオープンな日本語医療 VLM の開発が求められているが、現状は存在していない。本研究では、総パラメータ数 14B のオープンな日本語医療 VLM を初めて構築した。モデルを構築するうえで最も障壁である訓練データの不足を補うため、英語データを加工し約 1,200 万件の日本語医療学習データを作成した。さらに、推論過程を明示的に出力させる CoT 形式データを導入し、推論あり/なしの 2 種のモデルを学習した。評価では、CT 画像および X 線画像に対し、推論ありモデルがオープン VLM の中で最良の性能を示した。


