2022-04-13 東京大学
発表のポイント
◆RNAが機能を発揮する際に特に重要となる2次構造を予測する手法を開発した。
◆汎用性が高く、さまざまな生命現象のRNA塩基配列と機能に関するデータに適用できる。
◆RNAをターゲットとした医薬品の開発に役立つと期待される。
発表概要
RNAはDNAに記録された遺伝情報をコピーすることにより生じる分子であり、生命の維持にとって中心的な役割を果たしています。多くのRNAは分子内で2次構造(注1)を形成し、他の分子と相互作用することにより、その機能を発揮します。実験技術の発達により、RNAの塩基配列とその機能値(注2)に関する大量の実験データが取得可能になりましたが、これまでそのような実験データから機能に直結する2次構造を予測するための汎用的な方法は提案されていませんでした。そのため、実験者はそれぞれのデータごとにテーラーメイド的に解析手法を開発しなければなりませんでした。
東京大学大学院新領域創成科学研究科の寺井悟朗特任准教授と浅井潔教授の研究グループは、RNAの塩基配列と機能値データから、RNAの機能に重要な2次構造を予測する手法を開発しました。そして、RNAの配列多様性や機能値分布が異なる生命現象のデータに適用し、提案手法が汎用的に利用できることを示しました。 RNAをターゲットとする医薬品の開発などに役立つことが期待されます。
本研究成果は、「Nucleic Acids Research」に2022年4月7日付けで掲載されました。
発表内容
RNAの2次構造は、遺伝子発現制御のスイッチ、配列特異的な結合部位、自己切断酵素(注3)などとして機能し、多様な生命現象に関与しています。それら生命現象の動作原理を理解したり、人為的にコントロールしたりするためには、2次構造の役割を正確に知ることが重要です。新型コロナ感染症の原因ウイルスやエイズウイルスを含む多くのウイルスは遺伝情報をRNAとして保持しており、ウイルスの持つ遺伝子が正しく機能するために、その2次構造が必要であることが報告されています。
次世代シーケンサー(注4)を含む実験技術の発達により、RNAの塩基配列と機能に関する大量のデータを取得することが可能となりました。最近では、そのような大量データから2次構造の役割を調べる、いわゆる「データ駆動型」の研究が行われています。例えば、自己切断酵素として機能するリボザイムと呼ばれるRNAの塩基配列とその酵素活性(=機能値)に関して、大量のデータを得ることが可能となりました(図1A)。このようなデータを分析することで、RNAの持つ機能と2次構造の関連をこれまでよりも精密に調べることが可能となりました。
しかしながら、図1AのようなデータからRNAの機能に直結する2次構造を予測する汎用的な手法は提案されていませんでした。そのため、実験者はそれぞれのデータごとにテーラーメイド的に解析方法を探さなければなりませんでした。図1Aのようなデータの解析には、RNAの2次構造予測、統計解析、機械学習など異なる分野の情報解析を組み合わせる必要があり、実験を専門とする生物学者にとっては一般にハードルが高く、容易に実施できるものではありません。
RNA 2次構造は細胞の中で揺らぎ、確率的な振る舞いをします(図2)。したがって、2次構造と機能の関係を正確に分析するためには、この確率的な揺らぎを考慮する必要があります。我々はすでに、揺らぎを考慮した2次構造の特徴が、原核生物RNAの翻訳効率ともっとも強く相関することを、過去の研究で示しました(Terai and Asai, 2020, Nucleic Acids Research)。今回提案する方法では、大規模データの背後にあるRNA 2次構造の確率的な振る舞いが考慮され、2次構造と機能の関係が分析されます。この方法では、図1Aのようなデータを入力データとし、それぞれのRNAが取りうる2次構造の揺らぎを考慮して機能値との関連が抽出されます。したがって、揺らぎの中で確率が高い2次構造ほど、機能値に対する影響が大きくなります。
今回の方法では、まずRNA 2次構造をいくつかのタイプに分類します。続いて、RNAの各塩基がどのタイプの2次構造に含まれるかを、2次構造の揺らぎを考慮して予測します。この予測結果を2次構造プロファイルと呼びます(図1B)。そして、2次構造プロファイルと機能値を学習データとして、リッジ回帰(注5)による学習を行います。学習により得られた回帰モデルの係数(図1C)は、RNAの「どの部分」が「どのような2次構造」を持つときに機能値を増加させるか、あるいは低下させるかを示します(図1D)。すなわち、RNAの機能値に直結すると考えられる2次構造を示しています。
我々は提案した手法を、リボザイムと自己触媒活性、原核生物RNAと翻訳効率、真核生物RNAとスプライシング活性などのデータに適用し、その汎用性を示しました。RNAの配列多様性、機能値の分布の偏り、データ数が大きく異なるにもかかわらず、すべてのデータに対して重要なRNA 2次構造が予測されました。
今回提案した手法は、機能と直結するRNA 2次構造を予測するものであり、2次構造をターゲットとした医薬品の開発に役立つことが期待されます。また、本手法で得られる回帰モデルは、RNAの機能値を予測するのにも利用することができます。したがって、より機能値の高いRNAを計算機上で予測することができます。より高機能なRNAの配列設計にも利用できると期待されます。
本研究は、JST(科学技術振興機構)CREST JPMJCR18S1、日本学術振興会 若手研究「RNA2次構造の確率分布を内包した機械学習アルゴリズムの開発」(研究代表者:寺井悟朗、課題番号:JP21K15075)、基盤研究(A)「修飾塩基を持つRNAの情報解析基盤技術の開発」(研究代表者:浅井潔、課題番号:JP21H04912)、「先進ゲノム解析研究推進プラットフォーム」(研究分担者:小原 雄治、課題番号:16H06279)の支援を受けて行われました。
図1 提案手法の解析の流れ
本手法ではRNA塩基配列とその機能値に関するデータ(A)を入力として受け取る。それぞれのRNA配列から2次構造プロファイル(B)を求め、プロファイルと機能値を学習データとして回帰モデルを作成する。この回帰モデルの持つパラメータ(C)は、RNAの「どの部分」が「どのような2次構造」を形成するときに、その機能値を増加あるいは減少させるのかを示す(D)。
図2 RNA 2次構造の揺らぎ
灰色の丸はRNAを構成するヌクレオチドを示す。点線は1組のヌクレオチドに形成される水素結合を示す。
発表雑誌
雑誌名:「Nucleic Acids Research」
論文タイトル:QRNAstruct: a method for extracting secondary structural features of RNA via regression with biological activity
著者:Goro Terai*, Kiyoshi Asai*
DOI番号:10.1093/nar/gkac220
発表者
寺井 悟朗(東京大学大学院新領域創成科学研究科メディカル情報生命専攻 特任准教授)
浅井 潔(東京大学大学院新領域創成科学研究科メディカル情報生命専攻 教授)
用語解説
(注1)RNA 2次構造
RNAはヌクレオチドという化合物が鎖状に繋がった分子である。RNA分子内の異なるヌクレオチドは水素結合を形成することができる。多くのRNAは、この水素結合により折りたたまれてコンパクトな構造をとる。RNA分子内の水素結合の場所を示したものをRNA 2次構造と呼ぶ。RNA 2次構造は図2のような模式図などを用いて表現される。
(注2)機能値
ここではRNAの機能の強さを数値化したものを機能値と呼んでいる。RNAはさまざまな機能を持つため、機能値の意味はRNAの種類により異なる。例えば、自己切断酵素(注3)として働くリボザイムというRNAの場合には、その酵素活性を実験で測定したものが機能値となる。
(注3)自己切断酵素
自分自身の切断を触媒する活性を持つ酵素。RNAの中には酵素として働くものがいくつか知られており、それらを総称してリボザイムと呼ぶ。リボザイムの多くは自己切断酵素として機能する。
(注4)次世代シーケンサー
2000年初頭に開発された超並列のシーケンサー(DNAやRNA塩基配列を決定するための装置)。それまでに使われていたサンガーシーケンサーと比較して数十万~数百万倍の並列処理が可能。その性能は、現在も向上し続けている。
(注5)リッジ回帰
機械学習の一種で、重回帰分析を過学習が起こりにくくなるように改良したもの。また、学習データの中に相関が高い特徴が含まれる場合にも安定した学習を行うことができる。
お問い合わせ
新領域創成科学研究科 広報室