2024+-12-26 国立遺伝学研究所
近年、ゲノムの読み取り技術は急速に進展を遂げていますが、ゲノム情報を希少疾患の原因究明やがん医療へ応用するには、数万人規模のヒトゲノム解析が不可欠です。これには数ペタバイト(1)に及ぶ大量のデータを処理する高度な計算技術が求められていました。
国立遺伝学研究所 生命情報・DDBJ センター(センター長 有田正規)と株式会社 PEZY Computing(代表取締役社長 髙橋一夫)、株式会社 ゲノムアナリティクスジャパン(代表取締役 八谷剛史)は共同で、PEZYComputing社が開発した国産メニーコアプロセッサPEZY-SC3(2)を搭載した高速ヒトゲノム解析システム「ZettaVEGA」の実証実験を行いました。ZettaVEGAではヒトゲノム解析で最もよく使用されるソフトウェアGATKのベスト・プラクティス(3)をPEZY-SC3に移植し、メニーコアを最大限まで活かした超並列計算による高速化を実現しています。
まず、国際的によく利用される参照ゲノム配列GRCh38(4)に精度検証用のヒトゲノムデータ(5)を照合する解析をZettaVEGAで実施し、GATKベスト・プラクティスの実装と結果が99.9995%一致することを確認しました。GATKベスト・プラクティスの実装は、CPU16コアを用いても一人分のヒトゲノム解析に1日以上の計算時間を要します。
一方で、ZettaVEGA では33分で計算が完了しました。これはNVIDIA社のGPUを用いた計算時間 (H100 8枚を用いた場合に37分, V100 4枚では90分) よりも高速で、PEZY-SC3プロセッサの高い性能をよく表しています。
次に、GRCh38よりも新しく、完成度が高い参照ゲノム配列HM13(4)に、4つの国際コンソーシアムが公開するデータセットを照合する解析を実施しました(表1)。CHM13との照合は更に大きな計算コストがかかりますが、DDBJ(6)とゲノムアナリティクスジャパンは照合結果をインターネットで制限を設けずに公開(7)し、誰もが利用できるようにしています。
表1 ZettaVEGA(PEZY-SC3)を用いた公開データセットの実行結果
まとめ
国立遺伝学研究所スーパーコンピュータの既存システム (NVIDIA社のV100 GPU 4枚) と比べ、ZettaVEGA を用いた計算速度は2.8倍になりました。ZettaVEGA 1台あたり、年間で約1.2万人のゲノムデータを解析できるペースです。国立遺伝学研究所ではZettaVEGAを2台導入しており、成果を公開・共有することで国内に不足する計算資源の補完に貢献しています。
■ 用語解説
(1) ペタバイト
ペタとは、ギガ(10億)の100万倍にあたります。ヒト全ゲノムの情報を1万人分管理するのに、おおよそ1ペタバイトのストレージを要します。
(2) PEZY-SC3
PEZY-SC3プロセッサはHPC(High Performance Computing) 用の高速演算コアを4,096個搭載した、超並列計算向けの高性能かつ省電力 IC チップです。
製品の解説
ZettaVEGAの解説
(3) GATKベスト・プラクティス
GATK (Genome Analysis Tool Kit) は米国ブロード研究所が開発したヒトゲノム解析用のソフトウェア群です。
複数の処理結果を比較可能にするために計算の処理過程を揃えたものをベスト・プラスクティスと呼び、世界中で利用されています。
(4) 参照ゲノム配列 GRCh38・CHM13
ゲノム解析の際に参考とするヒトゲノムの全染色体情報を参照ゲノム(リファレンスゲノム)といいます。基準ゲノム配列とよばれることもあります。GRCh38とは国際的な学術組織が公開する参照配列で、最新バージョン38は2013年より公開されています(特定個人の情報ではありません)。CHM13は胞状奇胎由来の1倍体完全ゲノムで、2022年に発表・公開されました。
(5) 精度検証用のヒトゲノムデータ
米国食品医薬品局(FDA)が提供するヒトゲノムデータ PrecisionFDA HG001を、GATKベスト・プラクティスの実装(16コアのCPUを使用)とZettaVEGA(PEZY-SC3を使用)を用いて解析し、結果の一致度を評価しました。
(6) DDBJ (DNA Data Bank of Japan)
国際的に主要な遺伝子情報のリポジトリ(投稿形式のデータベース)で、生命科学の研究者がゲノムデータを共有・公開するために利用しています。
センターウェブサイト
今回の公開データサイト
(7) ヒトゲノムデータの解析結果の公開
ヒトゲノムデータへのアクセス管理は「制限なし公開」と「制限あり公開」の2通りあります。今回の結果は、制限なし公開データセットを解析したものです。