JSTトップ > 事業成果 > データベース > バイオサイエンスデータベースセンター(NBDC)

データベースを共有・統合

NBDCロゴマーク生命科学データの価値を最大化 2018年度更新

 生命科学データベースの統合を実現するため、研究開発とサービス提供を行っています。それにより生命科学分野の研究データを中心とした研究成果を、研究者、開発者、技術者に広く共有し、研究開発の活性化を目指します。これらの推進は、関係する府省と一丸となって取り組んでいます。研究成果が効果的に活用できる基盤を構築することにより、ライフイノベーション・グリーンイノベーションの実現を加速します。

NBDCの事業推進の構成
図:NBDCの事業推進の構成

NBDC事業の4つの柱

(1)戦略の立案:
データベースの整備・統合化の戦略企画や、データや技術のコーディネート、データベース統合化ガイドラインの策定、国内外との連携構築などを実施しています。
(2)ポータルサイトの構築・運用:
データベースに関連するサービス、研究開発プログラムの情報やセンターの活動を紹介するポータルサイトを構築・運用しています。
・カタログ:目的のDBを一覧から探せます
→データベース収録数:1,644件
・横断検索:さまざまなDBを一括で検索できます
→対象データベース数:643件
・アーカイブ:DBを丸ごとダウンロードできます
→公開データベース数:137件
・RDFポータル:様々な研究機関が作成した生命科学分野のRDF形式データを検索・ダウンロードできます
→公開データセット数:20件
・ヒトDB:個人情報の保護に配慮しつつ、ヒトに関する様々なデータを共有するためのプラットフォームです
→公開データ数:73件
(数字はすべて2017年度末時点)
(3)データベース統合化基盤技術の開発:
セマンティックウェブ技術等によるデータベース統合化に必要な基盤技術の開発を行っています。多種多様なデータベースをRDF形式で提供するポータルサイトやRDF化支援ツールの提供、その他、エンドユーザ向けのデータベース利用技術の開発等を行っています。
(4)バイオ関連データベース統合化の推進
統合化推進プログラムのファンディングにより、分野ごとのデータベース統合化を推進しています。本プログラムでは、これまで31件の研究開発課題を支援してきており、2018年度は9件の研究開発課題の支援を実施しています。
PICK UP!!

NBDC RDFポータル
~RDFデータが充実! 生命科学分野におけるデータ統合活用のための基盤整備が進む~

「統合データベースにおける基盤技術開発とデータベース運用に係る共同研究」
大学共同利用機関法人情報・システム研究機構 データサイエンス共同利用基盤施設
ライフサイエンス統合データベースセンター

生命科学分野のデータベースは多種多様で、それぞれが異なる用語や形式により記述されています。そのため、分野横断的にデータを利用するには、データの相互運用性を高め、自動処理が可能となるデータとして整備することが必要で、データのLOD(Linked Open Data)化が進んでいます。その一つの手段として2006年頃より、国内外でデータのRDF形式注1)への転換が進んでいます(図1)。

NBDCは、DBCLSとの共同研究により、生命科学分野のデータベースをRDF形式で一箇所に集約した日本初のポータルサイトを構築し、2015年11月より公開しています(図2)。このサイトには、さまざまな研究機関が作成したデータベースが集積しており、利用者はそれらのデータの説明を閲覧、および、データのダウンロードやSPARQL(RDF形式データの標準問い合わせ言語)による検索を行うことができます。なお、本サイトの公開にあたっては、関連プログラム等の各種データベースのRDF化をサポートしてきた知見を元に、DBCLSがRDF化のガイドラインを策定しています。ポータルサイトで公開されているRDFデータは全てこのガイドラインに準拠しているため、一定以上の品質を備えた信頼性の高いものになっています。

ポータルサイトの公開以来、データ統合活用の基盤整備のためデータ収録を進めておりますが、2017年11月末時点で、20データセットが収録されています。このサイトでは、遺伝子、遺伝子オーソログ、メタゲノム、エピゲノム、ゲノム変異、タンパク質立体構造、糖鎖、トランスクリプトーム、化合物等、ライフサイエンスの主要なデータタイプの過半数に渡っており、トリプル数は452億トリプルで、世界最大規模のRDFデータ数となっています。

本サイトに登録されたRDFデータは適切なオントロジーを実装しているため、世界各国で公開されているRDFデータと容易に相互参照したり連結したりすることができ、従来であれば専門的な知識と膨大な手間が必要となるデータベースごとに異なるデータ形式を変換し統一する作業が不要となり、時間やコストを大幅に削減できます。利用例としては、網羅的な医薬品候補化合物から薬剤候補の絞り込み、遺伝子の変異情報と薬剤活性との関連などを根拠とする個別化医療や、環境や腸内の細菌分布を表すメタゲノム解析など、さまざまなデータの連携が求められる研究を促進することが期待されます。また、RDFデータはコンピューターによる自動処理と解釈が容易であるため、近年大きな技術革新のみられる人工知能技術の応用によって、複雑な生命科学の問題の解明などにもつながる可能性があります。今後、データ利用の普及および、RDFポータルへのデータのさらなる充実を図っていく予定です。

(図1)ライフサイエンス分野のRDFデータ
図1
(図2)NBDC RDF Portal
図2
注1) RDF(Resource Description Framework)形式
インターネット上にあふれる情報を活用するには、コンピューターで自動的に処理し、高度に利用する技術が重要である。インターネットの国際標準化団体であるワールド・ワイド・ウェブ・コンソーシアムから、インターネット上の情報をコンピューターでより処理しやすいものにするための国際的な標準形式として、RDF形式が提案されている。データを適切なオントロジーとともにRDF形式で記述すれば、コンピューターが自動的に処理し、研究者が多種多様なデータを連携して利用することが可能となる。行政データ等では、RDF形式でのデータ提供も進められている。

×