JSTトッププレス一覧 > 共同発表

平成28年9月20日

理化学研究所
科学技術振興機構(JST)

マウスの大規模解析データを世界へ

~国際標準規格の技術を活用した生命科学の新たなビッグデータ~

理化学研究所 バイオリソースセンター マウス表現型知識化ユニットの桝屋 啓志 ユニットリーダーらの研究グループは、国際連携を通じて解析された各遺伝子の機能をノックアウトしたマウスの115万件に及ぶ表現型注1)データを、ウェブの国際標準規格に沿った「RDF(Resource Description Framework)データ」として、全世界に発信しました。これらのデータ公開は、国際マウス表現型解析コンソーシアム(IMPC)注2)のプロジェクトの一環で行われました。2011年に発足したIMPCは、国際連携を通じてマウスの各遺伝子の機能をノックアウトし、血液検査、血圧、行動、形態など多項目にわたる表現型解析を行っています。その解析のために、マウスの遺伝的背景、解析方法、統計解析手法に至るまで、解析結果の再現性を保証するための解析方法の標準化を行い、同一の基準で比較できるようにしました。このような標準化の結果、表現型データは「世界共通の言葉」として普遍的に使うことができます。得られた表現型データは直ちに公開され、遺伝子の機能について新たな知見をもたらすと同時に、世界中の生命科学研究の場で使われています。

理研の研究グループは、IMPCのデータがさらに広い分野で利活用されるために、ウェブの国際標準規格に沿ったRDFデータに変換し、理研メタデータベース(http://metadb.riken.jp)を通じて、世界に向けてデータ発信を開始しました。RDFは、「World Wide Web」という世界共通の情報基盤における「世界共通の言葉」を支える規格や技術です。さまざまな事柄を世界共通の言葉で記述することで、分野横断的にデータを利用することが可能になります。さらに、RDFデータ同士であればリンクで容易に関連付けられるため、データ統合(世界中の知識をつなげて大きな知識とすること)が促進されます。

今回配信したRDFデータは、生命科学研究のさまざまな分野で横断的に活用され、さらなる人類の健康や医療の向上に貢献すると期待できます。

データの標準化とRDF変換については、科学技術振興機構(JST) バイオサイエンスデータベースセンター(NBDC)のライフサイエンスデータベース統合推進事業(統合化推進プログラム)の一環として行われました。

関連論文は、国際科学雑誌『Nature』(9月22日号)に掲載されるのに先立ち、オンライン版(9月14日付け:日本時間9月15日)に掲載されました。

研究グループ
理化学研究所

バイオリソースセンター
 マウス表現型知識化研究開発ユニット
 ユニットリーダー桝屋 啓志 (マスヤ ヒロシ)
 マウス表現型解析開発チーム・日本マウスクリニック
 チームリーダー若菜 茂晴 (ワカナ シゲハル)
 実験動物開発室
 室長吉木 淳 (ヨシキ アツシ)
情報基盤センター
 計算工学応用開発ユニット
 上級センター研究員小林 紀郎 (コバヤシ ノリオ)
 ユニットリーダー野田 茂穂 (ノダ シゲホ)

<研究の背景>

これまで、病気の発症や予防に関与する遺伝子の機能を明らかにするために、マウスを用いて多くの研究が行われてきました。しかし、個別の研究では、研究者ごとに解析の基準や、マウス系統の遺伝的な特徴が異なるために、1つの遺伝子変異が引き起こす効果を知ることができても、それぞれの研究成果を正確に比較して評価できないなど多くの問題がありました。

このような問題を解決するために、マウスの遺伝子をそれぞれノックアウトしたマウスの表現型を世界共通の基準で解析し、そのマウスと解析データを世界の研究者に提供することを目的とした「国際マウス表現型解析コンソーシアム(IMPC)」が2011年に発足しました。

IMPCでは、標準化された数百にわたる表現型解析を、全遺伝子のノックアウトマウスについて網羅的に進めており、2016年4月の時点で、2432遺伝子についての検査結果(合計約150万件)を公開しています※1)。IMPCで解析されたマウスは、理研バイオリソースセンター※2)を含む世界のリソースセンターから入手可能であり、緻密なデータとともに疾患研究に活用できる国際標準のバイオリソースとなっています。一方、疾患や基礎研究を含め、広い分野でデータが活用されるためには、分野横断的で標準規格に準拠したデータの公開が急務でした。理研BRCはIMPCのデータ公開活動にも参画しており、この問題の解決に取り組んでいます。

※1) http://www.mousephenotype.org

※2) http://mus.brc.riken.jp/ja/order

<研究手法と成果>

一般に、ある研究プロジェクトで産出された研究データを、他の研究データと統合して利活用するにあたっては、いくつもの障壁があります。例えば、データの記載方法がプロジェクト間で統一されていないこと、データ形式が異なることなどです。

研究グループは、IMPCのマウスリソースがさらに広い分野で利活用されるために、ヒト疾患モデル動物の表現型としては初の網羅的、かつ大規模なデータ(ビッグデータ)であるIMPCのデータをウェブの国際標準規格に沿った「RDFデータ」に変換しました。RDFは、データ活用を最大化すべく、次世代のウェブを構成する基盤の1つとして開発された規格及び技術です。RDFは、人、グループ、文書や概念、さらには、ゲノム、表現型、化合物、疾患、医薬品など、さまざまな情報間の関係(リンク)を用いて、コンピュータと人間双方が扱えるような「意味」を情報モデルとして表現できる仕組みと、それらをデータベース横断的に検索する仕組みを提供します。また、RDFはデータの意味をコンピュータでより容易に処理できる点でも優れており、将来的に、人工知能からの利用も期待できます。

今回の変換作業に先だって、研究グループは、IMPCのデータ中に記述されている、表現型解析の結果、解析項目、解析方法、解析対象のマウスのグループや遺伝子、参加機関などのさまざまな概念を整理し、バイオインフォマティクスの分野で用いられる標準的な語彙(オントロジー)を用いて表現しました。このようなデータ標準化作業の結果、RDFの仕組みを充分活かし、他のデータベースで管理されているさまざまな生命科学データとの関係付けや、統合的な解析が容易になります。

IMPCデータのRDFへの変換と公開では、理研情報基盤センターの技術を利用しました。情報基盤センターでは、理研発の生命科学系研究成果の利活用を促進するため、RDFによる研究成果データベース「理研メタデータベース※3)」を公開しています。このデータベースは、研究者がデータをインターネット公開することをサポートするための機能も備えています。公開されたデータは、ウェブブラウザでの閲覧、データ全体のダウンロード、研究者が作成する検索式を用いた自由なデータ抽出など、多様な方法で入手することができます。今回、理研メタデータベースの機能を用いることで、IMPCのRDFデータを、公共データとのリンクによる関連付けを含め高品質に極めて効率よく作成・公開することができました。公開されたIMPCデータは、総数5300万リンクに及ぶ大規模なデータ(ビッグデータ)ですが、理研メタデータベース上でIMPCデータを運用することで、理研内外の既存のデータと統合、連携させつつ、このような規模のデータも問題なく表示、検索することができます。

※3) http://metadb.riken.jp

<今後の期待>

今回実施したデータ標準化とRDF変換によって、IMPCデータ中の多くの異なる測定項目の結果を、国際標準の情報処理の記述法(プログラミングインターフェイス)を介して処理できるようになりました。データベースに跨いだ横断的検索が可能になった他、さまざまな分野での利用を見込んでいます。例えば、遺伝子の関与が大きいといわれる希少疾患の中には、症状の記載があるものの従来の医学的検査で診断をつけることができない「未診断疾患」があります。このような病名のつかない疾患は、治療そのものや治療法開発が難しいという問題があります。しかし、その症状の原因となっている遺伝子が判明することで、治療法が見つかり治ることもあります。このような原因遺伝子の解明に大きく役立つのが、疾患モデル動物としてのマウスの表現型データです。表現型データは、遺伝子に不具合がある際の症状に関して、網羅的かつ客観的な指標を提供し、希少疾患、未診断疾患の原因解明や治療法開発に大きく貢献します。理研バイオリソースセンターでは、日本医療研究開発機構(AMED)の未診断疾患イニシアチブと連携して、IMPCのRDFデータを未診断疾患治療のための情報ネットワークへ提供する予定です。

IMPCでは、今後5年間でマウスの全遺伝子の機能解析を完了させることが計画されており、その成果は、未知な部分が残るほ乳動物のゲノム機能の全容の解明、原因や治療法が明らかになっていない病気の研究など、生命科学、医科学に至るまで、さまざまな分野で利用されることが期待されています。研究グループは今後もIMPCの最新データをRDFで公開していく予定であり、RDF変換によりIMPCの成果の利活用が促進されると期待しています。

<参考図>

図 本研究成果の概要図

<用語解説>

注1) 表現型
細胞や個体での遺伝子発現の変化などの結果、個体差となって現れる形質のこと。遺伝子の発現量の差から生じる形質の差は、タンパク質の違い、代謝産物の違いという段階を経て、細胞や個体の形や機能の差として現れる。ヒトの遺伝的疾患の場合、表現型は、その疾患に現れる個々の症状に対応する。
注2) 国際マウス表現型解析コンソーシアム(IMPC)
2011年に、マウスの遺伝子のそれぞれをノックアウトしたマウスの表現型を世界共通の基準で解析し、そのデータとマウスを世界の研究者に提供することを目的とした国際共同開発プロジェクト。米国国立衛生研究所、英国医学研究評議会、欧州委員会など、世界の有力機関・組織で構成されている。現在、日本の理研バイオリソースセンターを含め、13か国18研究施設が参画している。IMPCは、nternational ouse henotyping onsortium の略。

<論文情報>

タイトル High-throughput discovery of novel developmental phenotypes
著者名 Mary E. Dickinson他80名
掲載誌 Nature
doi 10.1038/nature19356

<お問い合わせ先>

<研究に関すること>

桝屋 啓志(マスヤ ヒロシ)
理化学研究所 バイオリソースセンター マウス表現型知識化研究開発ユニット ユニットリーダー
Tel:029-836-9013 Fax:029-836-9017
E-mail:
URL:http://ja.brc.riken.jp/lab/bpmp/index_j.html

<JST事業に関すること>

舘澤 博子(タテサワ ヒロコ)
科学技術振興機構 バイオサイエンスデータベースセンター
Tel:03-5214-8491 Fax:03-5214-8470
E-mail:

<報道担当>

理化学研究所 広報室 報道担当
Tel:048-467-9272 Fax:048-462-4715
E-mail:

科学技術振興機構 広報課
Tel:03-5214-8404 Fax:03-5214-8432
E-mail: