事業成果

研究データをひろく、つなげて、つかいやすく

NBDCロゴマーク生命科学データの利活用のための研究開発2023年度更新

生命科学データベースの統合利用を実現するため、研究開発の推進とウェブサービスの提供に取り組む。生命科学分野を中心とした研究成果を研究者、開発者、技術者と広く共有することで、研究開発を活性化し、新たなイノベーションの創出を支える。

生命科学分野のデータベース統合化の推進 (統合化推進プログラム)

「統合化推進プログラム」は、ライフサイエンスに関わる国内外のデータを統合的に扱うためのデータベース開発を目的とした、公募型の研究費制度。2022年度に6件、2023年度に5件の研究開発課題を採択し、現在、合計11件を支援中。

データの統合利用技術開発と利用開拓

研究データの整理や統合、高度な利用のための技術開発およびアプリケーション提供。大学共同利用機関法人情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンスデータベース統合センター (DBCLS)と連携して推進。

基盤的ウェブサービスの提供

研究データベースの所在情報の収集、長期的な保全、研究倫理に基づく適切なデータ取扱い基準の策定などを通じ、研究データの効率的かつ適切な活用を促す。

・[カタログ]:DBを一覧から見つける
→DB収録数:2,545件
・[横断検索]:DBを一括横串検索
→対象DB数:779件
・[アーカイブ]:DBを保全、丸ごとダウンロード
→公開DB数:154件
・[RDFポータル]:RDF化データを参照・ダウンロード
→公開データセット数:37件
・[ヒトDB]:ヒト試料由来データを共有・利用
→公開データセット数:280件(制限公開含む)

(数字はすべて2023年1月末時点)

2022年度成果

「KEGG」の成果論文が Nucleic Acid Research 誌に掲載 ウイルス感染症研究に役立つ機能改修を報告

京都大学 化学研究所 金久 實特任教授らが開発・提供する「KEGG」は、2022年12月、ウイルス情報の掲載を含む最新の成果論文を[Nucleic Acid Research 誌に掲載]した。

KEGGは分子レベルの情報から細胞、個体、エコシステムといった高次生命システムレベルの機能や有用性を理解するためのリソース。ゲノムをはじめとしたハイスループットデータの生物学的意味解釈に広く利用されている。

今回の更新により、ヒトとウイルスとの相互作用を分子ネットワークとして解析できるようになった。感染症、特に新型コロナウイルス感染症の拡大を契機として大きな社会問題にもなったウイルス感染症の研究やその治療法の開発につながりうる。

希少疾患の検索システム「PubCaseFinder」の論文が Human Mutation誌に掲載 API提供・アルゴリズム改善などの取組みを報告

DBCLSと連携して開発・提供する、希少・遺伝性疾患検索システム「PubCaseFinder」の論文が、2022年5月、[Human Mutation 誌に掲載]された。

PubCaseFinder は希少・遺伝性疾患とその関連情報(遺伝子、症例報告、関連データベースなど)を、医療関係者や研究者が効率よく検索・閲覧できるウェブサービス。公開以降、検索の精度や機能の改善、API の拡充などに取り組んできた。利用回数は年々増加しており、2021年には年間1.2万回超の検索クエリを受け付けている。

希少・遺伝性疾患の患者の最大 60%が診断を受けていないとされるなか、PubCaseFinder によって医師が診断に有用な情報を得ることで、患者の適切な医療へのアクセス促進につながりうる。

日本人ゲノム多様性統合データベース「TogoVar」の論文が Human Genome Variation誌に掲載 意義や特徴を報告

DBCLSと連携して開発・提供する、日本人ゲノム多様性統合データベース「TogoVar」の論文が、2022年12月、[Human Genome Variation誌に掲載]された。

TogoVarは、日本人ゲノム配列のバリアント (個人による違い) とそれに関係する疾患情報などを収集・整理したデータベース。日本人以外の集団のバリアント情報も統合し、日本人集団と比較することができる。開発に際し、RDFミドルウェアを用いることでイニシャルコストを大きく低減させた。

TogoVar は、集団内の個々人が各バリアントをどの程度持っているか (バリアント頻度) をワンストップで閲覧できるようになり、日本人集団を対象とした個別化医療などへ向けたゲノム医化学の発展につながりうる。

NBDCヒトデータベース収録データの活用を促進する「NBDC-DDBJ インピュテーションサーバ ワークフロー」を公開

2022年12月、NBDCヒトデータベースの収録データのさらなる活用を促進する「NBDC-DDBJ インピュテーションサーバ ワークフロー」を公開した。本ワークフローは「インピュテーション解析」をおこなうためのもの。ウェブブラウザ上で操作でき、解析作業に不慣れな研究者でも扱いやすい。

インピュテーション解析とは、ゲノム配列中の一部のバリアント (個人による違い) 情報から全ゲノム配列を推定する手法。例えば、疾患発症等に対する遺伝要因の探索を効率化できる。全ゲノム配列を直接決定するよりも安価かつ迅速だが、ある程度の計算機性能が必要で、また人のゲノム配列データに対する極めて慎重な取扱いも求められる。

本サービスによって、NBDCヒトデータベース収録のデータを、より多くの研究者が円滑かつ効率的に利用できるようになることで、日本の遺伝医学の進展につながりうる。

本ワークフローについては、2022年12月、[Human Genome Variation誌に掲載された論文]で特徴や意義を報告した。