構造多型検出アルゴリズムの包括的評価~既存の検出手法より最適手法の提示が可能に~

ad
ad

2019-06-14 理化学研究所

理化学研究所(理研)生命医科学研究センターゲノム解析応用研究チームの鎌谷洋一郎客員主管研究員、寺尾知可史チームリーダー、小杉俊一研究員らの研究チームは、全ゲノムシークエンス[1]データから構造多型(SV)[2]を検出する既存の69のアルゴリズム[3]の性能評価を行い、高精度でSVを検出するためのツールの選定や組み合わせの選別などを提供する基盤情報を確立しました。

本研究成果は、疾患に関わるゲノム変異の同定や個別化医療の実現に貢献するとともに、微生物、動植物を含めた全ての種のゲノムにおけるSV検出のための有用な情報を提供します。

SVは、個人間のゲノムの違いのうち50塩基対以上の長さの変異のことで、発達障害や知的障害などを含むさまざまなヒト疾患の要因になると考えられています。しかし、SVを検出する多くのアルゴリズムが開発されているにもかかわらず、精度良くSVを検出する単独のツールは存在しません。

今回、研究チームは、多くの評価データを用いて69のSV検出アルゴリズムの包括的性能評価を実施し、各SVのタイプとサイズに応じて、どのアルゴリズムが検出精度[4]や検出感度[5]などの性能が優れているかを明らかにしました。さらに、より高精度でSVを検出する手段として、アルゴリズム間で共通に検出されるSVの精度、感度を体系的に解析し、各SVのタイプとサイズに応じた、最適なアルゴリズムの組み合わせを選定するために情報基盤を確立しました。

本研究は、英国の科学雑誌『Genome Biology』(6月3日号)に掲載されました。

構造多型(SV)検出アルゴリズムのサイズ別欠失検出性能比較

図 構造多型(SV)検出アルゴリズムのサイズ別欠失検出性能比較

※研究チーム

理化学研究所 生命医科学研究センター

ゲノム解析応用研究チーム

客員主管研究員 鎌谷 洋一郎(かまたに よういちろう)

チームリーダー 寺尾 知可史(てらお ちかし)

研究員 小杉 俊一(こすぎ しゅんいち)

基盤技術開発研究チーム

チームリーダー 桃沢 幸秀(ももざわ ゆきひで)

研究員 ギョウケイ・リュウ(Xiaoxi Liu)

統合生命医科学研究センター(研究当時)

副センター長 久保 充明(くぼ みちあき)

※研究支援

本研究は、日本学術振興会(JSPS)科学研究費補助金基盤研究C「低カバレッジロングリードを用いた効率的ゲノム構造変異同定手法の確立(研究代表者:小杉俊一)」による支援を受けて行われました。

背景

ゲノム「構造多型(SV)」は、50塩基対(bp)以上の欠失[6]、挿入[7]、重複[8]、逆位[9]多型の総称であり、50bpより小さい欠失、挿入に相当する「インデル」、1bpの塩基置換である「一塩基多型(SNV)」[10]とは区別されます。SVの中の欠失と重複は、コピー数多型(CNV)とも呼ばれます。その出現頻度はSNV(個人当たり~400万)やインデル(個人当たり~70万)と比較して、SV(個人当たり1万~2万)では低いものの、その大きいサイズのためにSVに起因する個人ゲノム間で観察される異なる塩基数は、SNVによる個人間の異なる塩基数の3~10倍あることが示されています。

このように個人ゲノム間に大きな違いをもたらすSVは、発達障害や知的障害などを含むさまざまなヒト疾患の遺伝的要因となることが近年の多くの研究から示されています注1,2)。また、がんなどの体細胞変異によって引き起こされる疾患においても、SVが関わることを示す多くの研究があります注3,4)

SVの構造の複雑さと大きいサイズのために、SVの検出はSNVと比較して困難です。ゲノムの多型は通常、100bp~150bpの短い配列(リード)[11]データをヒトの標準ゲノム配列(リファレンス配列)[12]にアライメント[13]して検出します。このリード長内に収まるSNVやインデルに対して、より大きなサイズのSVはリード内に収まらず、SVをまたいでアライメントされるリードの間接的な証拠を用いて検出しなければならないため、検出精度や検出感度が低くなってしまいます。

これを克服するために、これまでに多くのSV検出アルゴリズムが開発され、コンピュータツールとして提供されてきました。しかし、それぞれのアルゴリズムを用いて得られる結果には共通性が低い問題点がありました。さらに、既存の多くのSV検出アルゴリズムを、同じ条件で一度に包括的に性能評価した研究が行われていないため、多くあるアルゴリズムからどのようなアルゴリズムを選定し、組み合わせて用いればSVを精度良く検出できるか、科学的根拠に基づいて選別できませんでした。

注1)Weischenfeldt J, et al. Phenotypic impact of genomic structural variation: insights from and for human disease. Nat. Rev. Genet. 14, 125-38 (2013).

注2)Marshall, C.R. et al. Contribution of copy number variants to schizophrenia from a genome-wide study of 41,321 subjects. Nat. Genet. 49, 27-35 (2017).

注3)Yi, K. et al. Patterns and mechanisms of structural variations in human cancer. Exp.. Mol. Med. 50, 98 (2018).

注4)Nik-Zainal, S. et al. Landscape of somatic mutations in 560 breast cancer whole-genome sequences. Nature 534, 47-54 (2016).

研究手法と成果

研究チームはまず、単独の全ゲノムシークエンスデータからSVを検出する現時点で得られるアルゴリズムのほぼ全て(79アルゴリズム)を入手しました。そして、そのうち研究チームのコンピュータ環境下で動作した69アルゴリズムの性能(検出精度、検出感度、ブレークポイント[14]同定精度、検出に要する時間とメモリー容量など)の評価を行いました。評価データとして、一つのシミュレーションデータと六つの実サンプルから得られた全ゲノムシークエンスデータを用いました。 それぞれのアルゴリズムについて、それぞれの評価データを用いてSVを検出し、検出されたSVが正解データである標準SVデータと一致(オーバーラップ)したものを正しく検出されたSVとしてカウントし、精度(Precision)と感度(Recall)を計算しました。また、精度と感度は、SVのタイプ(欠失、重複、挿入、逆位)ごとに算出し、さらに欠失と重複については、S・M・Lのサイズ別(S: < 1 Kb、M: 1~100Kb、L: > 100Kb)に算出しました。

タイトルとURLをコピーしました