機械学習フレームワークにより高精度な血清腫瘍バイオマーカー検出を実現(Machine Learning Framework Improves High-Precision Serum Tumor Biomarker Detection)

ad

2026-06-02 合肥物質科学研究院(HFIPS)

中国科学院合肥物質科学研究院と合肥がん病院の共同研究チームは、血清中の腫瘍バイオマーカーを高精度かつ解釈可能な形で定量する機械学習フレームワークを開発した。研究では、表面増強ラマン分光法(SERS)と組み合わせることで、AFP、CEA、CA19-9、CA125など12種類の腫瘍マーカーを同時に高精度で測定することに成功した。血清は多様な分子が混在する複雑な生体試料であり、シグナルの重なりや干渉によって正確な定量が難しい。また、従来の機械学習は予測根拠が不明瞭な「ブラックボックス」であることが課題であった。研究チームは、SVR、XGBoost、PLSRの3つのモデルをElastic Netベースのメタモデルで統合したスタック型アンサンブル学習を構築し、さらにLASSOによる特徴選択でデータ次元を75.3%削減した。その結果、全バイオマーカーで決定係数(R²)が0.9を超え、フェリチンとSCCAではそれぞれ0.981、0.988を達成した。加えて、SHAP解析によりラマンピークと分子振動特性の関連を可視化し、糖鎖修飾やスペクトル重複が予測精度に与える影響を説明可能とした。本研究は、がんの早期診断や精密医療への応用が期待される。

機械学習フレームワークにより高精度な血清腫瘍バイオマーカー検出を実現(Machine Learning Framework Improves High-Precision Serum Tumor Biomarker Detection)
Workflow of SERS spectral acquisition, data processing, and ISEM-based quantitative analysis for serum tumor biomarkers. (WU Boyu)

<関連情報>

定量的 分析 の 複数 血清 腫瘍 バイオマーカー による 1 解釈可能 積み重ねられた アンサンブル モデル Quantitative Analysis of Multiple Serum Tumor Biomarkers by an Interpretable Stacked Ensemble Model

Boyu Wu,Jiawei Chen,Yanheng Huang,Pan Li,Qingmei Deng,Ronglu Dong,and Liangbao Yang
Analytical Chemistry  Published: April 20, 2026
DOI:https://doi.org/10.1021/acs.analchem.5c04589

Abstract

Surface-enhanced Raman spectroscopy (SERS) offers exceptional sensitivity and specificity for biomolecular detection, particularly in analyzing serum tumor biomarkers. However, its application is hindered by spectral complexity and matrix interference. Although machine learning (ML) has shown promise in SERS data analysis, existing quantitative models for biomarker detection lack generalizability and interpretability. To address these challenges, we developed an interpretable stacked ensemble model (ISEM) that integrates feature selection, ensemble learning, and explainable artificial intelligence (XAI) for quantifying 12 serum tumor biomarkers. To ensure reliable quantitative analysis, we validated the acquired SERS data using uniform and reproducible Au nanoparticle substrates. Preprocessing, least absolute shrinkage, and selection operator (LASSO) feature selection were employed to establish a foundation for accurate quantification. Subsequently, 12 serum tumor biomarkers were quantified, demonstrating the superior performance of ISEM, which achieved a high predictive accuracy, with R2 values exceeding 0.9 for all biomarkers. Crucially, based on the quantitative results, we provided molecular-level interpretability for structure-spectrum correlations using Shapley additive explanations (SHAP), revealing how glycosylation reactions, matrix interference, and spectral overlap influence prediction accuracy. Furthermore, the capability of ISEM to quantify multiple biomarkers in unseen samples was confirmed through validation of its generalizability. Our study establishes an ensemble-driven, interpretable framework for quantitative biomarker analysis in a complex biological matrix, demonstrating significant potential for early cancer diagnosis and screening.

医療・健康
ad
ad
Follow
ad
タイトルとURLをコピーしました