2022-12-27 理化学研究所
理化学研究所(理研)生命機能科学研究センター 細胞システム動態予測研究チームの金 坚石上 級研究員、城口 克之 チームリーダーらの共同研究グループは、単一細胞の画像や動画から、遺伝子発現の網羅的な計測により決定した細胞の種類や遺伝子発現状態[1]を推定する基盤技術の開発に成功しました。
本研究成果は、迅速かつ低コストでの細胞種や細胞状態の識別を可能にし、細胞治療における非侵襲(顕微鏡観察)による細胞評価などへの応用が期待できます。
今回、共同研究グループは、顕微鏡観察と1細胞分取を自動で繰り返すロボット「ALPS(Automated Live-imaging and cell Picking System)」の開発に成功しました。ALPSは、ステージ上の任意の位置にある各細胞を自動で検出して一つずつ分取し、合計96個の細胞を16分程度で分取・単離できます。血液系の細胞集団をモデルとした実証実験を行ったところ、ALPSで観察・単離した1,000細胞以上の細胞の遺伝子発現状態を、次世代シークエンサー[2](1細胞RNAシークエンシング法[3])を用いてデータ駆動[4]的に決定できました。さらに、これらの細胞画像と遺伝子発現状態の関係をAI解析(深層学習)[5]を用いて抽出し、画像や動画から細胞の種類や状態を推定することに成功しました。
本研究は、科学雑誌『Proceedingsof the National Academy of Sciences of the United States of America(PNAS)』オンライン版に近日中に掲載されます。
単一細胞画像からのデータ駆動的に決定した細胞種・遺伝子発現状態の推定
背景
近年、組織や細胞集団を構成する細胞には、一見同じように見えても実は多様な種類や状態があることが分かってきています。これらの細胞の種類や状態を、研究者の経験などだけに頼らず、網羅的な計測により得られたデータからより客観的に決定することが細胞生命科学研究の推進において重要です。このための代表的な手法が1細胞RNAシークエンシング法であり、細胞で発現するRNAの種類と量を次世代シークエンサーにより網羅的に計測することで、各細胞の遺伝子発現状態を決められます。一方で、解析のために基本的に細胞を破砕する必要があり、一つの細胞の時間変化を追うなど経時的な計測は困難です。
細胞の種類や状態を非侵襲的に同定する手法として、画像を基にしたAI解析(深層学習)が注目されています。細胞や組織の画像とその状態(がん化など)が対になっている大量のデータをAIに与えて画像と状態の関係を抽出させた後、初めて与えるテスト画像に対してその状態をAIに推定させる(がんなのか、がんでないのか、など)試みが行われています。
これは画像解析法の発展を利用した革新的な手法ですが、そもそも細胞ががんかどうかなどの状態の判断を主に観察者の経験や限定的な測定値などに頼っており、データ駆動的に決定することが難しいという課題があります。そこで、データ駆動的に決められた細胞の種類や状態をAI解析で推定する手法が期待されていますが、同一の細胞において、AI解析に有効な画像の取得と網羅的かつデータ駆動型の遺伝子発現解析を同時に実現する手法がないことが課題でした。
研究手法と成果
共同研究グループは、同一細胞について画像取得と網羅的遺伝子発現解析を実現するため、細胞分取ロボット「ALPS(Automated Live-imaging and cell Picking System)」を開発しました(図1)。ALPSは、光学顕微鏡による細胞の観察、位置決定、特徴のリアルタイム検出と、それに基づく細胞の選択、単一細胞の分取を、多数の細胞を対象に自動で繰り返して実施することができます。さらに本研究では、分取した細胞の網羅的遺伝子発現の高速実施を実現するために、次世代シークエンサー用の試料調製のプロセスの一部も自動化しました。この自動化プロセスでは、ALPSを用いて分取した細胞を含むプレートをそのまま使用し、分取した各細胞に対して同時に試料調製をすることができます。
図1 自動細胞観察分取ロボット「ALPS」
細胞観察、画像撮影、細胞位置決定、細胞分取、プレートへの吐出を自動で繰り返すことができるロボット。明視野観察、複数波長での蛍光観察など、顕微鏡の多様な機能を利用できる。細胞の吐出も動画記録することで、一つの細胞が吐出されたことを確実に確認できる。さらに絶対数の少ない細胞や細胞塊などの精製にも利用できる。左写真の矢印の数字は、右図の名称に対応。
開発したALPSと次世代シークエンサーを組み合わせたシステムを用いて、複数の血液系の培養細胞を混在させたマウス細胞集団のサンプルから、合計1,000個以上の時系列細胞画像と網羅的遺伝子発現のデータセットを取得することに成功しました。用いたサンプルは、網羅的遺伝子発現解析によりデータ駆動的に3種類の細胞種(白血病細胞、T細胞、造血前駆細胞)に識別されました(図2)。
図2 同じ細胞の画像と遺伝子発現解析のデータセット
左図は、T細胞(青)、白血病細胞(緑)、造血前駆細胞(赤)を経時観察して撮影した細胞画像(30分間にわたり1分に1回の撮影)。右図は、観察した細胞をALPSで分取した後に遺伝子発現解析をした結果。t分布型確率的近傍埋め込み法(tSNE法)というデータ解析手法を用いて、遺伝子発現のばらつきを2次元のグラフで表現したもので、一つの点が一つの細胞を示す。遺伝子発現のパターンが三つに分かれ、それぞれの集団が細胞の種類を示している。両方の図で示されている番号は、同じ細胞であることを示している例であり、全ての細胞について、画像と遺伝子発現解析の双方を得ている。
次に、このデータセットを用いて、時系列細胞画像から細胞の種類を推定することを試みました。まず、データセットの約95%の細胞を用い、深層学習により、画像とデータ駆動的に決定した細胞種の相関関係を抽出しました。その後、残り約5%の細胞画像についてこの相関関係から細胞種を推定させたところ、画像データから81%の正答率で3種類の細胞種(白血病細胞、T細胞、造血前駆細胞)を識別できることを確認しました(図3)。
図3 細胞画像から遺伝子発現状態を推定した時の精度
図2で示したデータを用いて、経時撮影した細胞画像がデータ駆動的に決定した三つのうちのどの細胞種なのかを推定したところ、0.81の精度で推定できた。”リンク”は、同一の細胞から得られた画像と遺伝子発現解析結果を同一の細胞から得られたものとして相関関係を基に深層学習を用いた結果である。”ランダム”は、細胞画像と遺伝子発現解析結果をランダムに結びつけて深層学習を用いた結果である。”リンク”と”ランダム”の差は、深層学習により細胞画像と遺伝子発現状態の相関関係が抽出できていることを示している。
また、ここで実施したデータ駆動的な遺伝子発現解析により、今回用いた造血前駆細胞を2つの状態に区別することができました。そこで同様の方法を用いて推定したところ、この2つの細胞状態を画像から有意に識別することができました。さらに、生体から得られた細胞において本アプローチの有効性を示すため、マウス末梢血中の細胞に本手法を適用しました。その結果、細胞画像から、データ駆動的に決定した免疫システムの中核を担うB細胞、CD4+T細胞、CD8+T細胞を有意に識別することができました。これらの成果は、データ駆動的に決められた細胞の種類や状態を、細胞の画像から推定できることを示しています。
今後の期待
細胞観察の基本的なデータである明視野顕微鏡画像から細胞の遺伝子発現状態を推定するアプローチは、ALPSを用いた大規模データの取得が可能になったことで、より多くの細胞種や状態の推定・同定への道を開きました。非侵襲で細胞の状態を推定できるため、例えば、細胞治療に用いる細胞そのものを移植前に評価することなどに役立つ可能性があります。基礎研究においても、これまで細胞種の同定に用いられてきた分子マーカーの検出も不要となる可能性があり、コスト削減にもなります。さらに、既知の適切なマーカーを得ることができていない細胞種や状態の同定にも貢献します。
ALPSは任意の位置にある細胞を任意の時間に分取でき、機能の拡張も容易な革新的なロボットです。動いている細胞や、他の細胞と相互作用している細胞の解析にも応用可能であり、1細胞生命科学を推進するツールになると期待できます。また、組み合わせる顕微鏡に制約を与えないように設計されているため、超解像顕微鏡や全反射顕微鏡など、多様な顕微鏡との併用による応用研究も可能です。さらに、細胞を分取するため、本研究で示した遺伝子発現解析だけでなく、プロテオーム解析[6]、メタボローム解析[6]なども可能であり、さらには生細胞を個別に刺激した際の反応などによる機能解析も実施できます。
本研究は、近年注目されているBioDX[7]の成果の一つともいえます。この技術基盤を発展させることでさらにBioDXを推進し、さまざまな生命科学研究に貢献すると期待できます。
補足説明
1.遺伝子発現状態
同じDNA配列を持つ細胞でも、それぞれの細胞が異なる遺伝子を発現することで異なる機能を担うことができる。本稿では、発現しているこれらの遺伝子の種類や量で特徴付けられる細胞の状態のことを「遺伝子発現状態」と呼ぶ。
2.次世代シークエンサー
サンガー法を利用した「第一世代シークエンサー」と対比させて使われる用語。機種によるが、一度に107~1010(1,000万~100億)個程度のDNAの配列を決定できる。
3.1細胞RNAシークエンシング法
1細胞中に含まれるRNA(主に相補的DNA)の配列をハイスループットDNAシークエンサーを用いて解析し、遺伝子網羅的かつ定量的にその種類や量を決定する方法。
4.データ駆動
科学研究のスタイルの一つ。何らかの仮説やモデルを出発点にしてその正しさを実験や観察から得られたデータで検証することで新たな知識を生み出す「モデル駆動」に対し、実験などによって得られたデータを出発点に何らかの法則を見いだし、そこから仮説を生み出すことを「データ駆動」と呼ぶ。
5.AI解析(深層学習)
多層のニューラルネットワークを用いた機械学習手法の一種。データ間の非自明な関係を非線形関数などでモデル化し、入出力データの関係を学習することで、分類や予測などを可能とする。
6.プロテオーム解析、メタボローム解析
特定のタンパク質(プロテイン)をターゲットとせずに、種類網羅的にタンパク質を解析する方法をプロテオーム解析と呼ぶ。同様に、種類網羅的に代謝物(メタボライト)を解析する方法をメタボローム解析と呼ぶ。
7.BioDX
生命科学研究における「DX(デジタルトランスフォーメーション)」。情報技術を利用した革新的な飛躍が期待されている。
共同研究グループ
理化学研究所 生命機能科学研究センター 細胞システム動態予測研究チーム
チームリーダー 城口 克之(シログチ・カツユキ)
上級研究員 金 坚石(ジン・ジャンシ、Jin Jianshi)
研究員(研究当時)小川 泰策(オガワ・タイサク)
基礎科学特別研究員 北條 望(ホウジョウ・ノゾミ)
東京大学 定量生命科学研究所
教授 岡崎 拓(オカザキ・タク)
助教 清水 謙次(シミズ・ケンジ)
東海大学 医学部 基礎医学系 分子生命科学
教授 今西 規(イマニシ・タダシ)
奨励研究員(研究当時)キリル・クリュコフ(Kirill Kryukov)
東京理科大学 生命医科学研究所
教授 伊川 友活(イカワ・トモカツ)
研究支援
本研究は、理化学研究所運営費交付金(生命機能科学研究センタープロジェクト「DECODEプロジェクト」)、日本学術振興会(JSPS)科学研究費助成事業新学術領域研究(研究領域提案型)「シンギュラリティ細胞の内部状態を同定するための細胞操作&遺伝子発現解析法の開発(研究代表者:城口克之)」などによる助成を受けて行われました。
原論文情報
Jianshi Jin*, Taisaku Ogawa*, Nozomi Hojo, Kirill Kryukov, Kenji Shimizu, Tomokatsu Ikawa, Tadashi Imanishi, Taku Okazaki, Katsuyuki Shiroguchi *equally contributed, “Robotic data acquisition with deep learning enables cell image-based prediction of transcriptomic phenotypes”, Proceedings of the National Academy of Sciences of the United States of America, 10.1073/pnas.2210283120
発表者
理化学研究所
生命機能科学研究センター 細胞システム動態予測研究チーム
チームリーダー 城口 克之(シログチ・カツユキ)
上級研究員 金 坚石(ジン・ジャンシ、Jin Jianshi)
報道担当
理化学研究所 広報室 報道担当