2020-12-14 理化学研究所
理化学研究所(理研)生命医科学研究センター生命医科学大容量データ技術研究チームのイマド・アブケセーサ上級研究員、粕川雄也チームリーダー、予防医療・ゲノミクス応用開発ユニットの川路英哉ユニットリーダーらの研究チームは、理所主導で行われている国際共同研究「FANTOM(Functional ANnoTation of Mammalian Genome)プロジェクト」から全世界に向けて公開しているデータベース(FANTOMウェブリソース)を更新しました。
本研究成果は、データベースの最新情報を広く研究コミュニティに提供するもので、生命現象の解明に大きく貢献すると期待できます。
これまでFANTOMプロジェクトでは、ヒトなどの哺乳類のゲノム中に存在する「転写」に関わる要素について、さまざまな側面から大規模解析を続けてきました。それら研究成果はデータベースとしてまとめられ、約20年間にわたり順次データを追加しながら公開しています。
今回、研究チームは、特にFANTOMプロジェクトの第5期(FANTOM5)、第6期(FANTOM6)で解析した「ノンコーディングRNA[1]」に関する多様なデータに加え、既存データの詳細情報も更新しました。さらに、研究者がFANTOMデータをより活用できるように、データベースシステムの高度化も行いました。
本研究は、科学雑誌『Nucleic Acids Research』(2021年データベース特集号)の掲載に先立ち、オンライン版(11月19日付:日本時間11月18日)に掲載されました。
更新したデータベース(FANTOMのウェブサイト(英語)より)
背景
2000年にマウスの完全長cDNA[2]へ機能アノテーション[3]情報を付与することを目的に、理化学研究所の主導により国際共同研究「FANTOM(Functional ANnoTation of Mammalian Genome)プロジェクト」がスタートし、FANTOMプロジェクトはその最初の成果を2001年2月に発表しました。その後FANTOMプロジェクトは、転写現象を中心にさまざまな生命現象、分子機能、生物種を対象に大規模データの取得と解析を行い、その都度データを発表してきました。最近では、長鎖ノンコーディングRNA[4]の機能解析を目的としたFANTOM6を実施し(現在も進行中)、その最初の解析データを発表しました注1)。
FANTOMプロジェクトでは、取得したデータを研究コミュニティでより活用できるよう、公開データの整理やデータベースシステムの開発を行い、「ウェブリソース」として約20年間にわたり公開してきました。このFANTOMウェブリソースは全世界に向けて公開されており、世界中の誰もが自由に利用できるようになっています注2)。毎年、FANTOMウェブサイトには年間約1,500万回のアクセスがあり、FANTOMプロジェクトのデータベースは多くの研究コミュニティに広く活用されています。
注1)2020年7月28日のプレスリリース「長鎖ノンコーディングRNAのさまざまな機能」
研究手法と成果
今回のFANTOMウェブリソースの更新では、主にノンコーディングRNAに関する情報を追加しました。追加したデータセットの一つは、FANTOM6で取得したデータで、285個のヒト長鎖ノンコーディングRNAのそれぞれを人為的に細胞から減少させた後の遺伝子発現量の変化を測定したものです。さらに、これまでヒトとマウスを対象に測定したマイクロRNA[5]の遺伝子発現量データに加えて、ニワトリ、ラット、イヌ、カニクイザルの組織・細胞を対象としたマイクロRNAの遺伝子発現量データを追加しました。加えて、さまざまな生物種のゲノム配列を対象に転写因子結合部位[6]を計算機で予測した結果や、RADICL-Seq法[7]を用いたRNAとゲノム領域の相互作用に関するデータなども新しく追加しました(図1)。
また、既存データについても、これまで公開していたデータで使用していたゲノム配列情報が更新されたものについて、最新版のゲノム配列情報を用いてデータの再処理を行った結果や、FANTOM5プロジェクトで使用した細胞・組織サンプルについての詳細情報(メタデータ[8])を、より多くの研究者が使いやすくなるよう追加しました(図1)。
図1 今回更新したFANTOMのデータセットのまとめ
そして、理研のオープンライフサイエンスプロジェクト注3)と共同で、理研メタデータベース注4)にサンプル情報を掲載しました。さらに、研究者がFANTOMのデータをより活用できるようにするため、データベースのインタフェースを高度化しました。
以上の更新データを含めて、FANTOMプロジェクトで産出・解析したデータには全て、FANTOMプロジェクトのウェブサイトからアクセスすることができます。
注4)理研メタデータベース
今後の期待
今後もFANTOMプロジェクトの進行に伴い、最新のデータをFANTOMウェブリソースとして提供するとともに、これまでのデータを活用するための利便性の向上にも取り組む予定です。その結果、FANTOMウェブリソースは生物科学分野の重要なデータリソースとして重要な役割を果たすことで、研究コミュニティに貢献し続けていくものと期待できます。
補足説明
1.ノンコーディングRNA
ゲノムから転写されるRNAには、タンパク質合成の鋳型となるメッセンジャーRNAに対して、そのような鋳型となる領域を含まないRNAがあり、これをノンコーディングRNAと呼ぶ。
2.完全長cDNA
cDNA(complementary DNA、相補的DNA)とはゲノムから転写されたRNA分子を、逆転写酵素を用いて合成したDNA分子のこと。タンパク質をコードしないイントロン領域を除去した後のRNAの全体が逆転写されたものを完全長cDNAと呼ぶ。ゲノム中のどの領域が転写され利用されているかが分かるだけでなく、タンパク質を合成するための鋳型としても利用できる。
3.機能アノテーション
遺伝子の機能に関する情報のこと。FANTOM1~3の各プロジェクトでは、塩基配列のみが決定されているマウスの完全長cDNAに対して、このcDNAがどの遺伝子由来のものであるかや、どのような機能を持つのかといった情報を付与していった。
4.長鎖ノンコーディングRNA
ノンコーディングRNAの中でも特に長いものを総称したもの。短いノンコーディングRNAに対して機能不明なものが多い。
5.マイクロRNA
ノンコーディングRNAの一種。21~23塩基程度の長さで、標的となるメッセンジャーRNAを分解したり、タンパク質への翻訳を抑制したりすることが知られている。
6.転写因子結合部位
転写因子と呼ばれるタンパク質が結合することで、その近傍の遺伝子の発現を変化させるゲノム中の領域。
7.RADICL-Seq法
細胞核内のRNAとゲノムDNAとの相互作用をゲノムワイドで同定する理研の独自技術。
2020年2月24日のプレスリリース「RNA-クロマチン相互作用を推定する新技術『RADICL-seq』」
8.メタデータ
何らかのデータを説明するデータや情報のこと。例えば、遺伝子の発現量データがあるときに、このデータの取得元である生体サンプルやその処理のための実験法をデータとして記載したものがメタデータとなる。各種データの詳細を理解したり、コンピューターにより一括処理を行う際に重要なデータとなる。
原論文情報
Imad Abugessaisa, Jordan A Ramilowski, Marina Lizio, Jesicca Severin, Akira Hasegawa, Jayson Harshbarger, Atsushi Kondo, Shuhei Noguchi, Chi Wai Yip, Jasmine Li Ching Ooi, Michihira Tagami, Fumi Hori, Saumya Agrawal, Chung Chau Hon, Melissa Cardon, Shuya Ikeda, Hiromasa Ono, Hidemasa Bono, Masaki Kato, Kosuke Hashimoto, Alessandro Bonetti, Masaki Kato, Norio Kobayashi, Jay Shin, Michiel de Hoon, Yoshihide Hayashizaki, Piero Carninci, Hideya Kawaji, Takeya Kasukawa, “FANTOM enters 20th year: expansion of transcriptomic atlases and functional annotation of non-coding RNAs”, Nucleic Acids Research, 10.1093/nar/gkaa1054
発表者
理化学研究所
生命医科学研究センター 生命医科学大容量データ技術研究チーム
上級研究員 イマド・アブケセーサ(Imad Abugessaisa)
チームリーダー 粕川 雄也(かすかわ たけや)
予防医療・ゲノミクス応用開発ユニット
ユニットリーダー 川路 英哉(かわじ ひでや)
(予防医療・診断技術開発プログラム コーディネーター)
報道担当
理化学研究所 広報室 報道担当