ポイント
- 生命科学分野では、異なる用語や形式で記述されているデータベースが数多く存在し、統合的な利用の妨げとなっていた。
- これら多種多様なデータベースを、連携が容易なRDF形式で統一し、集積したポータルサイトを公開した。
- 本サイトの公開により、分野横断的な研究の促進や、個別化医療などの最新医療の発展などに貢献できる。
JST(理事長 濵口 道成)と情報・システム研究機構(機構長 北川 源四郎)は、生命科学分野のRDF形式注1)によるデータベースを一箇所に集約した日本初のポータルサイトを構築し、11月30日に公開しました(図1)。本サイトには、さまざまな研究機関が作成したデータベースが集積し、利用者はそれらのデータの説明を閲覧、および、データのダウンロードやSPARQL(RDF形式データの標準問い合わせ言語)による検索を行うことができます。
生命科学分野の多種多様なデータベースは、それぞれが異なる用語や形式により記述されており、分野横断的にデータを利用する際の妨げになっていました。この問題を解決するため、データの相互運用性が高まり自動処理が可能となるRDF形式への転換が国内外で進んでいます(図2)。
JST バイオサイエンスデータベースセンター(NBDC)と情報・システム研究機構 ライフサイエンス統合データベースセンター(DBCLS)は、生命科学データベースを開発している国内外の研究グループに対しRDF形式の採用を推奨し、ポータルサイトの構築を進めてきました。
今回構築したポータルサイトでは、まず10件のRDF形式によるデータベースを公開しました(表)。2015年度末までに、さらに6件以上の公開を予定しています。RDF形式によるデータの提供は、すでに欧米の主要な生命科学のデータベースセンターによっても進められています。しかしこれらは単独の機関によるものであり、本サイトは、多くの研究機関から多種多様なデータベースを集積し幅広い研究グループの連携に貢献することを目指している点に特色があります。
また、DBCLSはポータルサイトの公開に先立ち、質の高いRDFデータ作成のためのガイドラインを策定し公開しています。本サイトで公開されているRDFデータは全てこのガイドラインに準拠しており、一定以上の品質を備えた信頼性の高いものになります。
本サイトに登録されたRDFデータは、世界各国で公開されているデータと容易に相互参照したり連結したりすることができます。例えば、網羅的な医薬品候補化合物から薬剤候補を絞り込むといった場合、これまではデータベースごとに異なるデータ形式を変換し統一しなければなりませんでしたが、この作業には専門的な知識と膨大な手間が必要でした。本サイトのRDFデータを用いればこの作業が不要となり、時間やコストを大幅に削減できます。さらに、分野横断的なデータの連携が進むことで、遺伝子の変異情報と薬剤活性との関連などを根拠とする個別化医療や、環境や腸内の細菌分布を表すメタゲノム解析など、さまざまなデータの連携が求められる研究を促進することが期待されます。また、RDFデータはコンピューターによる自動処理と解釈が容易であるため、近年大きな技術革新のみられる人工知能技術の応用によって、複雑な生命科学の問題の解明などにもつながる可能性があります。
NBDC RDFポータル URL:http://integbio.jp/rdf/
DBCLS RDFガイドライン URL:http://wiki.lifesciencedb.jp/mw/RDFizingDatabaseGuideline
<参考図>
図1 NBDC RDFポータルのデータベースリスト画面
各データベースの簡単な説明やカテゴリ情報、データベースの詳細説明へのリンクが掲載されている。リストは名称や更新日などでの並べ替えや、カテゴリごとの表示もできる。
図2 NBDC RDFポータルの概要
多種多様な生命科学分野のデータを、用語を統一しRDF形式に変換することで、相互参照したり連結したりすることが容易になり、さまざまなデータの連携が求められる研究(たとえば、創薬や個別化医療)の促進が期待できる。NBDC RDFポータルではこのようなRDFデータを集積し公開している。
RDFデータセット名 |
登録データ内容 |
RDFデータセットの 主たる作成機関 |
FAMSBASE(Full Automatic Modeling System Database) |
GPCR(Gタンパク質結合受容体)予測構造モデル |
中央大学 |
GlycoEpitope |
抗糖鎖抗体など |
新潟大学/立命館大学 |
GlyTouCan |
糖鎖構造・組成 |
創価大学 |
ICGC(International Cancer Genome Consortium) Linked Data |
がんゲノム |
東京大学 |
Metadata of JCM (Japan Collection of Microorganisms) |
微生物株特性情報 |
理化学研究所 |
MBGD(Microbial Genome Database) |
微生物遺伝子のオーソログ情報 |
基礎生物学研究所 |
NBDC NikkajiRDF |
化合物 |
科学技術振興機構 |
wwPDB(Worldwide Protein Data Bank) |
タンパク質立体構造データバンク・メタデータ |
大阪大学 |
RefEx(Reference Expression Dataset) |
遺伝子発現情報 |
情報・システム研究機構 |
WURCS(Web3 Unique Representation of Carbohydrate Structures) |
糖鎖の記述方法 |
野口研究所 |
表 NBDC RDFポータルに登録されたRDFデータ一覧
<用語解説>
- 注1) RDF(Resource Description Framework)形式
- インターネット上にあふれる情報を活用するには、コンピューターで自動的に処理し、高度に利用する技術が重要である。インターネットの国際標準化団体であるワールド・ワイド・ウェブ・コンソーシアムから、インターネット上の情報をコンピューターでより処理しやすいものにするための国際的な標準形式として、RDF形式が提案されている。データをRDF形式で記述すれば、コンピューターが自動的に処理し、研究者が多種多様なデータを連携して利用することが可能となる。
<お問い合わせ先>
<ポータルサイトに関すること>
科学技術振興機構 バイオサイエンスデータベースセンター(NBDC)
舘澤 博子(タテサワ ヒロコ)、畠中 秀樹(ハタナカ ヒデキ)
〒102-8666 東京都千代田区四番町5番地3
Tel:03-5214-8491 Fax:03-5214-8470
E-mail:
情報・システム研究機構 ライフサイエンス統合データベースセンター(DBCLS)
川島 秀一(カワシマ シュウイチ)
〒277-0871 千葉県柏市若柴178-4-4 東京大学柏の葉キャンパス 駅前サテライト6階
Tel:04-7135-5508 Fax:04-7135-5534
E-mail:
<報道担当>
科学技術振興機構 広報課
〒102-8666 東京都千代田区四番町5番地3
Tel:03-5214-8404 Fax:03-5214-8432
E-mail:
情報・システム研究機構 ライフサイエンス統合データベースセンター(DBCLS)
広報担当 箕輪 真理(ミノワ マリ)
〒277-0871 千葉県柏市若柴178-4-4 東京大学柏の葉キャンパス 駅前サテライト6階
Tel:04-7135-5508 Fax:04-7135-5534
E-mail: