生命科学画像のデータ形式の標準化とデータ共有リポジトリの整備に向けた国際提言

ad
ad

生命科学分野のオープンサイエンスの推進

2021-05-11 理化学研究所

理化学研究所(理研)生命機能科学研究センター発生動態研究チームの大浪 修一チームリーダーら、バイオイメージングを専門とする世界11カ国の研究者は、生物学・医学研究で用いられる画像データのデータ形式の標準化およびデータ共有リポジトリ[1]の整備に向けた提言を科学雑誌『Nature Methods』オンライン版(5月4日付)で発表しました。

本提言は、近年急速に発展する生体を対象とした画像取得技術(バイオイメージング技術)と、それらを用いた研究から生み出される膨大な画像データが適切に共有される環境を整備することで、生命科学のより良い発展につながるオープンサイエンスの実現を目指すものです。また、研究者コミュニティだけでなく、科学雑誌の編集者・出版社、公的・民間研究資金の提供機関、関連企業など、生命科学に従事するさまざまな関係者の賛同を得ることを期待します。

生命科学画像のデータ形式の標準化とデータ共有リポジトリの整備に向けた国際提言

データ形式の標準化イメージ

背景

近代の生命科学は、顕微鏡の発明、染色技術の発達、X線の発見など、画像取得技術(イメージング技術)の発展とともに進んできました。さらに、近年では格子光シート顕微鏡、超解像顕微鏡、ラマン散乱顕微鏡、クライオ電子顕微鏡、分子イメージングなど、定量解析や構造解析、動態解析などさまざまな生命現象を対象とした新たなイメージング技術[2]が次々と生み出されています。これらの技術は、製品として入手できる場合もありますが、複雑な仕様が施されているものや、研究者の自作によるものも少なくありません。また撮影条件やデータ形式なども個人の経験や工夫に頼る場合が多く、論文やリポジトリを媒介として共有された技術やデータだけでは、研究者間での共用や比較は容易ではありません。

このような課題の解決に向け、欧州の国際共同研究資金の支援を受け、世界各国のバイオイメージングを専門とする研究者による国際コンソーシアム「Global BioImaging(GBI)注1)」が2015年に組織されました。GBIは、国の垣根を超えたバイオイメージング技術の普及と画像データの共有を目指し、画像取得手法とデータ形式の標準化についての議論や、最新技術の講習会などの取り組みを進めてきました(図1)。日本からは、「先端バイオイメージング支援プラットフォーム(ABiS、研究支援代表者:狩野方伸東京大学教授/自然科学研究機構生理学研究所客員教授)注2)」および「SSBD:database(運用代表者:大浪修一理研チームリーダー注3))」が連携組織として参加しています。大浪チームリーダーはABiSの総括支援活動運営委員会の委員であり、英国ダンディー大学のジェイソン・スウェドロウ教授とともに、GBI画像データマネジメント・ワーキンググループの共同議長を務めています。また、国内の研究者、開発者、企業の声をGBIの取り組みに反映させる役割も担っています。

注1)Global BioImaging

注2)先端バイオイメージング支援プラットフォーム

注3)Systems Science of Biological Dynamics

図1 Global BioImaging(GBI)の取り組み

2020年9月にオンラインで開催されたGBIの国際ワークショップ。先端バイオイメージング支援プラットフォーム(ABiS)がホストとなり、「投稿前の画像データ: 管理と処理」をテーマに、画像データ解析やオープンアクセスに向けたインフラ構築、画像データ解析ツールのリポジトリ開発などについて議論された。(写真提供:Global BioImaging)

提言の概要

今回、同ワーキンググループに参加する11カ国17人の研究者は、バイオイメージング分野のオープンサイエンスの促進に必須である、バイオイメージングデータのデータ形式の標準化とデータ公開のためのリポジトリの整備に向けて、以下の提言を連名で発表しました。

「イメージング技術は生命科学、生物医学のあらゆる場面で用いられており、生命機能の理解や、動物や人間の医療における診断・治療法の確立に役立てられている。急速に発展する生命科学および生物医学のイメージング分野において、画像データを取り扱うオープンなツールと画像データの共有リソースに関する世界規模で適用し得る指針が必要であり、そのための諸条件を提案する。」

“Imaging technologies are used throughout the life and biomedical sciences to achieve understanding of biological mechanisms and diagnosis and therapy in animal and human medicine. We present criteria for globally applicable guidelines for open image data tools and resources for the rapidly developing fields of biological and biomedical imaging.”

画像データ形式の標準化に向けた提言

1.公開性(Openness)
画像データの標準形式は、オープンに利用できるもので、入手が容易で、バージョン管理され、編集可能な仕様と実装と文書でサポートされていること。これらの仕様等は、FAIR(Findable, Accessible, Interoperable and Reusable)原則[3]に従い、オンライン上で公開されなければならない。

2.実装(Implementation)
画像データの標準形式は、オープンソースで一般に公開された最新のソフトウェアでサポートされるべきであり、そのデータ形式の読み取りと書き込みの機能を提供する明確に定義された仕様書を備えていなければならない。また、できれば、JavaやPython、C++などのコミュニティが採用している複数のプログラミング環境でサポートされるべきである。さらに、外部ソフトウェアへの組み込みを容易にするため、Application Programming Interface(API)[4]やオープンソースのリファレンス実装[4]を備えている必要がある。

3.サンプルデータ(Example)
標準形式の利用と採用を促進するため、その形式で保存した実際の画像データを公開し、自由に利用できるようにする。これは、標準形式を採用して利用したいと考えている人にとって有用な参考資料となり、また、このデータ形式を読み込んだり書き出したりする開発中のソフトウェアをテストするためのツールとしても役立つ。

4.許諾(Licensing)
標準形式に関するリソース(文書、仕様、実装、サンプルデータなど)は、クリエイティブ・コモンズ・ライセンスなど、コミュニティが合意した適切なライセンスを使用して使用許諾されるべきである。商用利用の禁止は、産業界の研究所やイメージング技術を販売する企業等の利用を阻害することにつながり、望ましくない。

5.データの種類(Data types)
計測実験の内容や研究分野、イメージング技術の種類、時間・空間スケールなどに対応して画像データにはさまざまな種類があり、一つの標準形式は一つあるいは多くても数種の実験内容や分野に対応するものである。各々の標準形式は、どのような種類のデータへの使用を想定しているのかを、文書で明記されなければならない。

6.管理(Governance or change management)
策定した標準形式が将来にわたって科学的に妥当であり、透明性が確保され続けるためには、標準形式についての意思決定と更新を管理する仕組みが必要である。透明性とコミュニティの強い意志が最も重要な要素である。

7.採用(Adoption)
形式が標準として適切なものと認識されるかどうかは、それが研究室、研究機関、地域の枠を超えて採用されるかにかかっている。今後、技術の発展に伴い新たな標準形式が検討されることがあっても、本提言を満たすものが標準形式として採用されるべきである。

画像データ形式の標準化に向けた提言

1.メタデータ[5]の仕様(Metadata specifications for submission)
公開された画像データは、試料の状態、実験操作、イメージング技術、撮像条件、使用したプローブ[5]などのメタデータを伴って初めて真価を発揮する。画像データのリポジトリを開発する際には、バイオイメージング研究者のコミュニティと協力して、可能な限り共通のメタデータの仕様を定義する必要がある。これらの仕様は、リポジトリ間で共有され、定期的かつ予見可能な方法で更新され、データ提供者が比較的容易に使用、記入、登録できるものであることが期待される。また、研究者の負担を最小にするため、メタデータが自動的に取得される仕組みがイメージング機器に備わっていることが望ましい。これらに関してGBIは、研究者と機器メーカーの要求を集約する役割を担うことができる。

2.生物画像データのエコシステム(Components of the bioimage data ecosystem)
他分野での成功例を見ると、共有のためのデータリソースは2種類に分けて構築するのが望ましい。一つはアーカイブ(リポジトリ)で、論文として発表された研究成果に関連する全てのデータの格納を目的とするリソースである。ここでは、全てのデータの格納を優先するために、データに付与するメタデータは少量に制限される。もう一つは、高付加価値データベース(AVDB: Added-value database)であり、上記のアーカイブからデータセットを取り込んでキュレーション[6]と統合を施したリソースである。ここでは、保有するデータを用いた発見等を促進するために、データには豊富なメタデータが付与される。アーカイブと高付加価値データベースを個別に構築、運用することで、効率的なデータの収集と、再利用や発見を可能にする十分なレベルのキュレーションの両方が実現される。

3.AIに応用可能な高付加価値データベースの要件(Requirements for AVDB for AI applications)
適切な注釈付けがなされた高付加価値データベースのデータセットは、深層学習[7]などAIの応用に際して良いトレーニングデータとなる。顕微鏡やイメージングの課題解決にAIが果たす役割は強く期待されており、高付加価値データベースの構築にあたっては、AIの専門家との協働によりAIのトレーニングに適したデータセットの定義付けを進めることを推奨する。

4.データ投稿、データ編集の認証システム(Authentication for submission and data access)
アーカイブや高付加価値データベースが普及すると、投稿数や投稿者の数は膨大なものになり、投稿を受理する作業においては、著者の本人認証や所属機関の認証などが重要となる。現在、研究者に個人IDを付与する複数のサービスが運用されているが、将来的には、認証システムの標準化に向けた関係者の努力が期待される。このような統一IDは、研究者が用いた装置や取集したデータセットの同定にも利用できる可能性がある。

5.信頼できるデータリソースの評価(Trustworthy research data resources)
イメージング技術や実験設定、取得したデータが複雑化していくにつれ、実験の再現やデータの再利用が困難になる。これらの課題に対して、公共データの質を評価し、公表する国際的なイニシアチブが既に始まっている。このような試みは、実験の再現性を高め、データの解釈を容易にし、データの提供元に対する信頼を担保するため、有用である。

6.個人識別が可能なデータの扱い(Human identifiable data)
個人を特定し得るデータや個人もしくは個人の生体組織に由来する画像データの利用・共有について、倫理的かつ実用的な観点からの指針を策定する。生命科学研究における個人情報の扱いについては、ゲノム科学で先行して策定されている指針が参照できる。

将来の展望

現在使用されているほとんどの画像データ形式は、ファイルを一つの単位として取り扱い、macOS、Linux、Windowsなど一般的なOSが採用するファイルシステム(ファイルストレージ)に適したものです。しかしこのデータ形式は、ファイルの一部にアクセスしたり、大きなファイルを分割して断片的なデータ集合として扱うことなどができないため、物理的に離れた複数のサーバーで構成されるクラウド型のストレージ技術(オブジェクトストレージ)においてスムーズに機能しません。今後、クラウド上に膨大な画像データとメタデータを格納する次世代型のストレージ技術を開発することが重要な課題です。

生命科学分野では、データの共有に際してメタデータの果たす役割がますます重要になっています。画像データも、実験手法や生物種のメタデータ、観察箇所(組織内、細胞内)を特定するための共通の座標系、分析結果、派生モデルなどを統合した新しい形式の整備が急務です。さらに、医療の現場では、生物科学と生物医学の画像を臨床データと統合して、診断や健康管理に必要な情報に直ちにアクセスできる革新的なシステムの構築に対するニーズが高まっており、その実現には、開発者向けのオープンな相互運用性標準が必要となることが見込まれます。

また現在、国際コミュニティでは、バイオイメージングデータの品質管理の標準の確立に向けた取り組みが行われており、将来的にはデータ標準に組み込まれ、データリポジトリへの登録の際の要件となることが期待されています。

本提言が、次世代の画像研究に求められるデータ技術の確立に向けて、研究者、科学雑誌の編集者・出版社、公的・民間研究資金の提供機関、関連企業など、生命科学に従事するさまざまな関係者の連携を促進することを期待します。

原論文情報

Jason R. Swedlow, Pasi Kankaanpaa, Ugis Sarkans, Wojtek Goscinski, Graham Galloway, Leonel Malacrida, Ryan P. Sullivan, Steffen Hartel, Claire M. Brown, Christopher Wood, Antje Keppler, Federica Paina, Ben Loos, Sara Zullino, Dario Livio Longo, Silvio Aime & Shuichi Onami, “A global view of standards for open image data formats and repositories”, Nature Methods, 10.1038/s41592-021-01113-7

補足説明

1.リポジトリ
データを共有するために整備されたデータベースのこと。オープンな形で一般に共有されたさまざまなデータは、科学分野におけるデータ解析・処理ツールの開発に重要な役割を果たしてきた。近年では、科学研究コミュニティ全体の研究開発を促進するために、研究成果を論文として発表する際に、研究で使用したデータをリポジトリに登録し、広く一般に共有する動きが進んでいる。

2.新たなイメージング技術
可視光線、電子線、ラジオ波、放射線など、さまざまな物理現象を利用したイメージング技術の改良・開発が進んでいる。格子光シート顕微鏡は、薄いシート状の光で試料を高速に走査する。超解像顕微鏡は、光の回折限界を超えた高い空間分解能を達成する光学顕微鏡。ラマン散乱顕微鏡は、試料にレーザー光を当てて得られるラマン散乱光を観測する。クライオ電子顕微鏡は、透過型電子顕微鏡の応用によりタンパク質立体構造を解析する手法。分子イメージングは、生物画像分野においては蛍光標識による分子の可視化が一般的である一方、医療分野においてMRIやPET、SPECTなど非侵襲的画像技術の利用が進んでいる。

3.FAIR(Findable, Accessible, Interoperable and Reusable)原則
「探せる」「入手できる」「相互運用できる」「再利用できる」の4項目から成る、適切なデータ公開の方法を示したデータ共有原則。
(参照:FAIR原則(「THE FAIR DATA PRINCIPLES」和訳) – NBDC)

4.Application Programming Interface(API)、リファレンス実装
APIは、異なるアプリケーションやソフトウェアを連携させる技術の仕様。リファレンス実装は、開発者がハードウェアやソフトウェアを実装しようとするときに参考にできるハードウェアやソフトウェアの具体的な実装例のこと。

5.メタデータ、プローブ
メタデータは、データを説明するデータや情報のこと。例えば、細胞の画像データがあるときに、このデータの取得元である生体サンプルやその処理のための実験法をデータとして記載したものがメタデータとなる。各種データの詳細を理解したり、コンピューターにより一括処理を行う際に重要なデータとなる。プローブは、特定の分子や細胞を可視化するための、目印となる色素や放射性同位体を含む化合物。撮影に用いたプローブの情報は、画像データに必須のメタデータの一つである。

6.キュレーション
生命科学の分野においては、関連するさまざまな文献の研究結果を収集、整理、分類、要約、共有することを指す。ゲノム科学で普及が進んでおり、特定のDNA配列に妥当性のある機能注釈が行われている。

7.深層学習
深層学習は機械学習手法の一つ。トレーニングデータを用いて、機械が自動的にデータの特徴を学習する。一部の分野では人間の認知能力を超えるなど、かつてない高いレベルでの認識精度を実現している。

発表者

理化学研究所
生命機能科学研究センター 発生動態研究チーム
チームリーダー 大浪 修一(おおなみ しゅういち)

報道担当

理化学研究所 広報室 報道担当

医療・健康
ad
ad
Follow
ad
タイトルとURLをコピーしました