幾千のAIで複雑な生態系を読み解く～湖沼生態系の相互作用を解明し、水質改善につなげる～

2022-10-17 理化学研究所

理化学研究所(理研)バイオリソース研究センター統合情報開発室の鈴木健大開発研究員、桝屋啓志室長、国立環境研究所生物多様性領域生態系機能評価研究室の松崎慎一郎室長の共同研究チームは、多数のAIプロセスの協働により、生態系における時間的なデータから各要素間の関係(相互作用)を推定する手法を開発し、この手法を霞ヶ浦の長期観測データに適用することで、水質悪化に結び付くラン藻類^[1]の大増殖(アオコ)の要因の一端を明らかにしました。

本研究成果は、生態系の駆動プロセスの解明や予測、制御だけではなく、疾患治療や健康維持、農業技術開発など、多様な分野におけるバイオリソースの新たな利活用につながると期待できます。

生態系の観測データは生物量、栄養塩濃度、気象因子などさまざまな要素から構成されるため、これらの複雑な時間変動から要素間の相互作用を解明することは困難でした。

今回、共同研究チームは、ニューラルネットワーク^[2]を同時に数千以上利用することで、生物・化学・物理プロセスをまたぐ複合的な観測データから、要素間の因果ネットワーク^[3]を推定できる手法を開発し、「EcohNet」と名付けました。EcohNetを茨城県霞ヶ浦の長期モニタリングデータに適用することで、水温が湖沼生態系全体の構成要素に支配的な影響を与えること、植物プランクトンのグループごとに制御要因(光や栄養塩などの資源利用や、捕食・競争を通じた影響など)が異なることを明らかにしました。さらに、EcohNetが生態系の変動予測に利用できることを示しました。EcohNetの有効性は、実験データと数値シミュレーションの両方によって支持されました。

本研究は、科学雑誌『Proceedings of the National Academy of Sciences(PNAS)』オンライン版(10月10日付)に掲載されました。

霞ヶ浦のアオコとプランクトン群集の相互作用の推定

背景

私たちの社会が多くの人間の関係性から成る複雑なシステムであるのと同様に、生態系も、生物など自然環境の多くの構成要素が相互作用するシステムです。このようなシステムに含まれる要素の関係を「因果ネットワーク」として推定することは、システムのメカニズムを理解する上で重要なステップです。因果関係を明らかにするためのアプローチとして、実験的な介入がありますが、多くの要素に対して網羅的に介入するのは難しく、必要な介入の規模や影響の点で実験が現実的でないケースも多々あります。このため、因果ネットワークを時系列データ^[4]から推定する手法が検討されてきました。

しかし、時系列に基づく既存の因果推定手法は、さまざまな生物、化学、物理プロセスからなる複合的なシステムである生態系には適切でない可能性があります。例えば、気温や降水量などの気象変数は大気や海洋動力学の影響下にあります。生物の密度や存在量は生物間の捕食や競争といった相互作用によって駆動され、化学物質は栄養資源などとして生物量の変動と結び付くと同時に、地球化学的な循環によってもコントロールされています。これらのプロセスに含まれる要素は、一方的な、または双方向の因果関係でつながり、その強弱にもばらつきがあります。このため、生態系の時系列データはさまざまな複雑さを示すことになります。これまでの手法は、このような複雑さを扱うことを前提としなかったことから、結果の正しさがデータの特徴に大きく左右されてしまう、すなわち頑健ではないということが課題でした。

一方、例えば、国立環境研究所は45年間にわたり茨城県霞ヶ浦の生物量、栄養塩濃度、水温など、湖沼生態系のさまざまな構成要素・因子の観測を継続しています。こうしたデータを十分に活用することで、湖沼生態系の時間変動にとって重要な要因を解明でき、その変動を予測・制御するための技術の発展が期待されます。

研究手法と成果

昨今、コンピュータの計算処理性能の向上に伴い、高度な情報処理手法としてのAI(人工知能)技術が社会の利便性の向上に役立ち始めています。共同研究チームは多数のAIプロセスの協働により、時間的なデータから要素間の因果ネットワークを推定する手法を開発し、「EcohNet」と名付けました。EcohNetは、AI技術の一つであるエコーステートネットワーク^[5]の軽量性と柔軟性を因果ネットワーク推定に利用します。エコーステートネットワークは、リカレントニューラルネットワーク^[6]と呼ばれる時系列予測に適したニューラルネットワークの一種で、誤差逆伝搬法^[7]を使う必要がないため、AIの学習(トレーニング)コストが低く、さまざまな時系列の予測に利用されています。

EcohNetではまず、多変量時系列^[4]から一つのターゲット変数を選択し(図1A)、それ自身の過去の情報だけを利用する場合、加えてもう一つの時系列を利用する場合などと、予測に利用する変数を順次増やしていきます(図1B)。そして、各段階の変数の組み合わせについて、1,000以上のニューラルネットワークを生成し、その予測の良し悪しの指標である「予測スキル」を計算します(図1C)。この予測スキルの分布の位置を比べることで、ターゲットの予測を最適化する(予測の正しさを最大化する)最小限の変数の組み合わせを得ることができます。

次に、この組み合わせから各変数を除いたときに、予測スキルがどのくらい下がるかを調べます(図1D)。このときの低下の度合いは、変数に固有の予測スキルとなります。これを各変数がターゲット変数へ与える影響の強さの指標とします。予測スキルが下がらない場合、そのような変数は組み合わせから除きます。以上の操作を全ての変数をターゲットとして一通り行うことで、対象とする生態系の因果ネットワークが得られます。

図1 本研究で開発したEcohNetの概要

A.対象が含む複数の時系列からターゲット変数を決定する。
B.ターゲット変数の予測で得られた予測スキルの分布を利用し、変数の組み合わせ(Ω)の中で、予測を最適化する組み合わせ(Ω)を決定する。
C.十分多くのエコーステートネットワークでターゲット変数を予測し、予測スキル(ρ)の分布を計算する。
D.予測を最適化する変数の組み合わせから、それぞれの変数を除くことで、変数に固有の予測スキルを算出する。

図2は、理想的な状況でEcohNetがどのように因果関係を検出するかを模式的に示しています。まず、Xの予測に、X自身に加えYとZが貢献する状況を想定します(図2A)。XとZの直接の関係を除いた場合でも、ZはYを介してXに影響するため、XとZの相関が現れる可能性があります。しかし、Zの影響は常にYを介した間接的なものであるため、Zに固有の貢献はなくなります(図2B)。同じように、XとYの直接の関係を除いた場合にも、XとYはどちらもZから影響を受けるため相関する可能性があります。しかし、Xの予測においてYはZそのもの以上には貢献しないため、Yに固有の貢献はなくなります(図2C)。

このように、EcohNetは変数同士の直接の関係を相関関係と区別して評価できます。これは、季節的な気温変化など、多くの変数に強く影響する要素を含むデータを扱うために重要です。

図2 3変数の関係で各変数がXの予測にどのように寄与するかを表すダイアグラム

上段の図は変数X、Y、Zの関係性を表す。青線の枠はXの予測を最適化する変数の組み合わせ、ρはそれぞれの因果の方向性についての固有の予測スキルを表している。下段の図は、Xの予測における各変数の貢献の大きさを模式的に示したもの。

EcohNetを霞ヶ浦の長期モニタリングデータに適用した結果、栄養資源となる化学物質、植物プランクトン、動物プランクトンの群集の動態が、水温を頂点とするほぼトップダウン型の因果ネットワークによって駆動される可能性が示されました(図3)。より詳しく見ると、植物プランクトングループは、それぞれ異なる要因と関係していました。例えば、硝酸態窒素濃度(NO₃-N)は、七つの植物プランクトングループ(図3緑字)のうち三つ(ニセコアミケイソウ科、ネンジュモ目、ミクロキスティス)に影響していました。これは、霞ヶ浦において窒素が植物プランクトンの一次生産を制限することを示した過去の研究とも一致します。

また、ケイ藻類^[1]やラン藻類の一部(ササノハケイソウ、ニセコアミケイソウ科、ミクロキスティス、スジタルケイソウ属)は、動物プランクトン(図3橙字)のワムシやミジンコの仲間から捕食の影響を受けていることも示唆されました。さらに、植物プランクトン群間の相互作用(例えばネンジュモ目→ユレモ目)も含まれていました。これは、窒素や光といった環境中の資源利用を巡る競争と関わっている可能性があります。さらに、推定した関係を1カ月先の変動予測に利用したところ、ひと月前の値をそのまま利用する単純な予測^[8]と比べて、予測スキルは平均して約20%改善しました(図3左下)。

図3 EcohNetが推定した霞ヶ浦微生物生態系の因果ネットワークと予測精度

それぞれの要素をつなぐ線の色の濃さと太さが関係の強さを示す。予測スキル0.0022以上の関係のみを描いた。植物プランクトンを緑、動物プランクトンを橙、それ以外を黒で示した。硝酸態窒素と溶存態リンは、いずれも植物プランクトンの栄養資源となる。左下は、EcohNet(青)、ひと月前の値をそのまま予測値とする場合(黄)の予測スキルを示した。

さらに、EcohNetとこれまで因果ネットワークの推定に利用されてきた手法をシミュレーションで比較することで、EcohNetの利点を明らかにしました。EcohNetは適用対象とする系の駆動因の違い(季節性のような外部からの入力、系内の相互作用による振動、確率的な変動のうちどれが支配的か)に影響されにくいことが分かりました。実際に関係している種のペアが20程度のとき、EcohNetは常にこれと同程度の関係を推定しました。一方で、比較した他の手法が検出した因果関係の数は、振動の性質によって10～40程度の範囲で大きくばらつきました。このようなEcohNetの頑健性は、複合的・複雑な時系列を扱うために望ましい性質です。

今後の期待

本研究で開発したEcohNetは、リカレントニューラルネットワークの一種であるエコーステートネットワークをアンサンブル機械学習のフレームワークと統合させた、新しい因果ネットワーク推定手法です。このアプローチは、データの特徴によらない頑健な因果関係の検出を実現するなど、生態系のような複雑・複合的な対象の分析に適した特長を持っています。

昨今、環境DNA技術や各種センサーによるリアルタイム観測技術の発達で、生態系モニタリングのデータ規模がかつてなく増大し始めています。こうした大規模なデータとAI技術が融合することで、私たちが予測し制御できる領域は、社会から自然環境へと広がっていくかもしれません。このような21世紀の生態学の発展の中で、これまで研究材料として利用されてきたバイオリソースもまた重要な役割を担う可能性があります。例えば、地球環境の変化が生物群集に与える影響の低減や緩和、生物多様性に壊滅的な影響を与えるレジームシフト^[9]の予兆検知と抑制、生物資源の効率的な管理などにおいて、微生物、植物、遺伝子などのバイオリソースの新たな利活用法が見いだされることが期待できます。さらに、私たちの健康は身体の微生物生態系(共生微生物叢)と密接な関わりがあることが明らかになっており、生態学がバイオリソースを通じて、疾患治療や健康維持に貢献する道も開かれるかもしれません。

補足説明

1.ラン藻類、ケイ藻類
ラン藻類は酸素発生を伴う光合成を行う細菌の一群であり、真核生物である他の藻類や陸上植物とは系統的に大きく異なっている。ケイ藻類は不等毛植物に分類される単細胞性の真核生物であり、細胞が珪酸質の被殻に覆われていることを特徴とする。

2.ニューラルネットワーク
ここでは、コンピュータ上で実現された、入力を変換する処理単位をネットワーク状に結合した数理モデルを指す。近年では、他の機械学習の手法とともにAIと呼ばれることが多い。

3.因果ネットワーク
ある要素XとYについて、Xが原因、Yが結果となるように影響が伝わるとき、X→Yのように矢印で因果関係を表現する。ある系が含む全ての要素について、このような因果関係を表現したネットワークを因果ネットワークと呼ぶ。

4.時系列データ、多変量時系列
時系列データはある系の要素(変数)Xについて、その状態の異なる複数の時間での観測値を時間順に並べたもの。特に、時間あたりに一つ以上の異なる要素の観測値がある場合、多変量時系列と呼ぶ。

5.エコーステートネットワーク
入力層、リザバー層、出力層の3層からなるニューラルネットワークで、入力層とリザバー層、リザバー層内は一定のルールでランダムに生成した結合に固定される。リザバー層と出力層の間の結合を調整することで学習を行う。リザバー層内の結合により、過去の状態に対する記憶が生じるリカレントニューラルネットワークの一種。

6.リカレントニューラルネットワーク
ニューロンの出力がそれ自身に戻るような経路が存在するニューラルネットワークで、フィードフォワードニューラルネットワークと対比される。入力の処理に内部状態(記憶)を利用できるため、時系列や文章といった時間依存性のあるデータを扱うことができる。

7.誤差逆伝搬法
ニューラルネットワークの学習アルゴリズムの一つで、出力の誤差から遡ってニューロン間の結合の重みを調整することで予測対象に対する出力の最適化を行う。

8.ひと月前の値をそのまま利用する単純な予測
一見単純すぎる手法に思われるが、自然界の個体群動態のように複雑な(時間変動に確率的な要因と、生物間相互作用による動力学的な要因の両方が関わっている)時系列では、さまざまなより進んだアプローチに比べ有効な場合が多いことが知られている。

9.レジームシフト
ここでは、気温や栄養濃度などが少しずつ変わることに伴って、生態系の状態がある点で大きく変化する「カタストロフィック・レジームシフト」を指す。このようなレジームシフトは、アオコの発生メカニズムとなることが知られている。

原論文情報

Kenta Suzuki, Shin-ichiro S. Matsuzaki, Hiroshi Masuya, “Decomposing predictability to identify dominant causal drivers in complex ecosystems”, Proceedings of the National Academy of Sciences, 10.1073/pnas.2204405119