共同発表：日本人ゲノム多様性統合データベース「ＴｏｇｏＶａｒ」運用開始～ゲノム医科学研究に役立つ情報をワンストップで提供～

ポイント

ＴｏｇｏＶａｒ（トーゴーバー：日本人ゲノム多様性統合データベース）では、ゲノム配列の個人による違い（バリアント）に関するさまざまな条件を用いて、国内外のデータベースや文献情報などのワンストップ検索を可能にした。
検索対象には、ＮＢＤＣヒトデータベースに登録された日本人のゲノムデータから集計した大規模なバリアントの頻度情報が含まれており、この頻度情報のデータセットもＴｏｇｏＶａｒから公開する。
今後、さらなる情報の充実を図り、日本人を対象とした個別化医療（高精度医療）などのゲノム医科学に寄与する日本人ゲノム情報基盤を目指す。

ＪＳＴ（理事長　濵口道成）と情報・システム研究機構（機構長　藤井良一）は、日本人ゲノム配列の個人による違い（バリアント）とそれに関係する疾患情報などを収集・整理したデータベース「ＴｏｇｏＶａｒ」を構築し、平成３０年６月７日より無料公開します。

薬の効き方や疾患のかかりやすさ、お酒を飲むと顔が赤くなるといった体質などの「表現型」は、遺伝子のバリアントと関係しています。表現型とバリアントの関係を発見するためには、対象とする集団に存在するバリアントの割合（頻度）の情報が必要であり、多くのデータを活用できることが成功の鍵となります。すでに海外では大規模な個人ゲノムデータを集約したバリアントの頻度情報が公開され、広く利用されています。一方、日本国内では、これまでさまざまな研究プロジェクトごとに公開されてきたため、プロジェクトを越えて横断的にバリアントの頻度情報を活用できるようにすることが課題でした。

この課題を解決するために、ＴｏｇｏＶａｒでは、各プロジェクトで生産された個人ゲノムを集計したバリアントの頻度情報や文献情報などを収集・整理し、さまざまな条件（バリアントのヒトゲノム上の位置、種類など）を用いて、ワンストップで検索する機能を提供します。これと同時に、これまでＮＢＤＣヒトデータベース^注１）に登録された日本人のゲノムデータから大規模なバリアントの頻度情報を集計して検索対象とするとともに、そのデータセットをＴｏｇｏＶａｒで公開しました。

今後、ＴｏｇｏＶａｒは、遺伝カウンセリングなど日本人を対象にした個別化医療（高精度医療）に向けたゲノム医科学の発展に寄与する日本人ゲノム情報基盤となることを目指し、バリアントに付随する遺伝子発現データなどの研究者に有用な情報を追加するとともに、ＮＢＤＣヒトデータベースによりバリアントの頻度情報をさらに充実させていきます。

ＴｏｇｏＶａｒ　ＵＲＬ：https://togovar.biosciencedbc.jp

本データベースは、科学技術振興機構（ＪＳＴ）バイオサイエンスデータベースセンター（ＮＢＤＣ）のライフサイエンスデータベース統合推進事業の一環として、ＮＢＤＣと情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター（ＤＢＣＬＳ）との共同研究により、開発されました。

＜ゲノム多様性統合データベースの背景＞

薬の効き方や疾患のかかりやすさ、お酒を飲むと顔が赤くなるといった体質などを「表現型」といい、表現型はゲノム配列の個人による違い（バリアント）と関係しています。表現型とバリアントの関係を発見するためには、表現型の有無により分けたそれぞれの集団におけるバリアントの頻度情報が必要です。日本人は白人集団に比べて耳垢が乾いている人の割合が多い、また、それほど太っていなくても糖尿病を発症する人が多いなど、集団によるバリアント頻度の違いが表現型の割合の違いに反映されることがあります。

これまで日本では複数の公的研究プロジェクトにおいてそれぞれヒトゲノムのデータベースが構築され、集計情報などが公開されていますが、これらは研究プロジェクトごとの形式によるデータセットからの情報であることがほとんどです。それぞれの研究プロジェクトにおいて構築され、乱立するデータベースを１ヵ所に集約し、横断的に整理統合することで、大規模集団でのバリアントの頻度情報を低コストで簡単に多くの研究者が利用できるようになるため、このように統合されたデータベースの価値は飛躍的に高いものとなります。

すでに海外では、大規模なバリアントの統合データベースとしてｄｂＳＮＰ^注２）やＥｘＡＣ、ｇｎｏｍＡＤ^注３）などがあり、１０万人規模の個人ごとのゲノムデータを集約したバリアントの頻度情報が公開され、広く利用されています。

日本人集団については、このように研究プロジェクト横断的に統合した大規模集団でのバリアントの頻度情報がなく、日本人を対象にした個別化医療（高精度医療）に向けたゲノム医科学を推進する上での大きな課題でした。そこで、日本版のＥｘＡＣ、ｇｎｏｍＡＤと呼べる、日本人ゲノム情報基盤の構築が求められていました。

＜これまでのヒトデータベース構築の経緯＞

近年、公的資金を投じた研究で生産されるさまざまなデータが公的データベースへ登録されることで、データの利活用が促進されています。

このような「オープンサイエンス」の取り組みの１つとして、ＪＳＴバイオサイエンスデータベースセンター（ＮＢＤＣ）は、個人情報の保護に配慮しつつヒトに関するさまざまなデータを共有するための公的なプラットフォーム「ＮＢＤＣヒトデータベース」を構築し、２０１３年１０月より運用を開始しました。ＮＢＤＣヒトデータベースの運用は国立遺伝学研究所ＤＮＡ　Ｄａｔａ　Ｂａｎｋ　ｏｆ　Ｊａｐａｎ（ＤＤＢＪ）と協力して行っており、個人ごとのゲノムデータやさまざまな表現型情報は、ＤＤＢＪが構築した「Ｊａｐａｎｅｓｅ　Ｇｅｎｏｔｙｐｅ－ｐｈｅｎｏｔｙｐｅ　Ａｒｃｈｉｖｅ（ＪＧＡ）^注１）」に格納され、共有されています。

ＮＢＤＣヒトデータベースは、学術や公衆衛生の向上に資する研究であれば国内の研究機関のみならず民間企業や海外の機関にもデータを共有することで、データの利活用を促進してきました。

この度運用を開始する日本人ゲノム多様性統合データベース「ＴｏｇｏＶａｒ」は、これまで構築してきた仕組みを生かし、発展させたものです。

＜日本人ゲノム多様性統合データベース「ＴｏｇｏＶａｒ」の内容＞

１．散在するデータを整理統合して、ワンストップでわかりやすく提供します

個々のバリアントが表現型に及ぼす影響を解釈するには、さまざまな知見や情報から統合的に判断する必要があります。そのため、東北メディカル・メガバンク機構や京都大学などから公開されているバリアントや遺伝子発現に関する情報、ＣｌｉｎＶａｒ^注４）のようなバリアントと疾患の関係に関する情報、日々更新される文献情報など、多くのデータベースをまたぐ情報を継続的に収集し続けなければなりません。ＴｏｇｏＶａｒではＲｅｓｏｕｒｃｅ　Ｄｅｓｃｒｉｐｔｉｏｎ　Ｆｒａｍｅｗｏｒｋ（ＲＤＦ）^注５）を用いて、多種多様なデータベースに散在して収録されてきた遺伝子型や表現型に関連する情報を整理統合し、ワンストップでわかりやすく提供します（図１、２）（表１）。これらを用いて、国内外のデータベースを比較することで、特定のバリアントに関する日本人と日本人以外の集団との出現頻度の比較などを可能にしました。

２．日本人におけるバリアントの頻度情報を提供します

ＴｏｇｏＶａｒでは、ＮＢＤＣヒトデータベースに登録されている個人ごとのゲノムデータを集約して得られた「日本人におけるバリアントの頻度情報」を提供します（図３）。今回日本人１２５人分の全エクソン^注６）データから集約した約１，３００万ヵ所のバリアントと、１８３，８８４人分の既知ＳＮＰ^注７）データから集約した約２００万ヵ所のバリアントを収録しました。これらを用いて、例えば、難病研究において、原因となるバリアント候補の絞り込みや多因子疾患の解析が可能になります。

３．既存データベースでＩＤを持たなかったバリアントにもＩＤを付与しています

ＴｏｇｏＶａｒでは、収録するすべてのバリアントにＩＤを付与します（図１）。これまでｄｂＳＮＰなど既存の国際的なデータベースに収録されていなかった多数のバリアントについても今回初めてＩＤを付与し、合計６，７００万個以上の全バリアントに独自ＩＤを付与しました。これにより、これまでＩＤが付与されていなかったバリアントデータも見つけやすくなり、学術論文などで容易に引用できるようになりました。

＜今後の展開＞

１．日本人ゲノム情報基盤としてゲノム医科学研究や先端医療への貢献を目指します

研究者はＴｏｇｏＶａｒを活用することで、過去の複数の研究プロジェクトにおいて取得された日本人のゲノムデータを効率よく収集し、自身の研究に用いることが可能になり、疾患などに関連した新たなバリアントの検出につながると期待できます。また、検出されたバリアントの解釈に必要となる既知の情報や日本人以外の集団における頻度情報などもワンストップで取得できることにより、ゲノム医科学研究における情報収集の迅速化や研究の効率化を支援します。さらに、遺伝カウンセリングなどの個別化医療（高精度医療）を提供する際の参考情報としての利用など、先端医療へ貢献することを目指します。

２．個人ゲノムデータをさらに追加し、バリアントの頻度情報の品質を向上させます

近日中にＮＢＤＣヒトデータベースに１，０２６人分の全ゲノムデータが追加され、ＴｏｇｏＶａｒにも反映されます。ＮＢＤＣヒトデータベースへの個人ゲノムデータの登録が増えることで、より大規模な日本人集団における頻度情報に更新され、ＴｏｇｏＶａｒ収録データの品質がさらに向上していきます。今後も随時収録可能なデータを追加していく予定です。

＜参考図＞

図１　ＩＤ付与による情報の整理統合とワンストップ検索

整理統合した全バリアントにＴｏｇｏＶａｒＩＤを付与（日本版ｄｂＳＮＰ／ｄｂＶａｒ）。散在する、バリアントの解釈に必要な情報も整理統合した。

バリアントの位置情報は各データベースが参照するゲノム配列のバージョンによって異なることがある。また、バリアントに関連する情報はデータベースごとの目的によって違いが生じる。これらの違いを吸収し、複数のデータベースを渡り歩くことなく、関連する情報をワンストップで取得できる。

図２　ＴｏｇｏＶａｒのワンストップ検索結果の例

ある患者群において、７番染色体の１２７２５４５８７番目の塩基がＧからＡに変わるバリアントが多く発見されたので、ゲノム上のバリアントの位置を条件に既知の情報を検索した例。ＣｌｉｎＶａｒでは２型糖尿病との関連が示唆されていることに加え、日本人集団(ＪＧＡ、３．５ＫＪＰＮ、ＨＧＶＤ）での頻度が、欧州人を主とするＥｘＡＣでの頻度よりも１００倍程度高いことがわかる。

図３　日本人約１８万人のバリアントの頻度情報の作成

ＴｏｇｏＶａｒでは、ＮＢＤＣヒトデータベース／ＪＧＡに登録されている日本人ゲノムデータを集約し、そのバリアントの頻度情報を公開する。

データセット	サンプルサイズ	バリアント部位数	対象	バリアントの種類
データセット	サンプルサイズ	バリアント部位数	対象	一塩基置換	挿入・欠失
ＪＧＡ－ＮＧＳ	125	12,980,041	全エクソン	✔︎	✔︎
ＪＧＡ－ＳＮＰ	183,884	1,958,606	既知ＳＮＰ	✔︎
３．５ＫＪＰＮ	3,554	50,099,977	全ゲノム	✔︎
ＨＧＶＤ　Ｖｅｒ．２．３０	1,208	501,556	全エクソン	✔︎	✔︎

表１　収録した日本人バリアントデータセット

東北メディカル・メガバンク機構が公開する３．５ＫＪＰＮと京都大学が公開するＨＧＶＤ　Ｖｅｒ．２．３０のサンプルサイズとバリアント部位数は、データを各公開ウェブサイトからダウンロードしＮＢＤＣが計数した。

＜用語解説＞

注１）ＮＢＤＣヒトデータベース／Ｊａｐａｎｅｓｅ　Ｇｅｎｏｔｙｐｅ－ｐｈｅｎｏｔｙｐｅ　Ａｒｃｈｉｖｅ（ＪＧＡ）: ＮＢＤＣとＤＤＢＪが共同運営する、ヒト由来試料からのゲノムデータなどを共有するための公的リポジトリ。個人ごとのゲノムデータやさまざまな表現型情報について、データの提供および利用に関する申請はＮＢＤＣヒトデータベースを通じて行われ、登録されるデータはＤＤＢＪ内のＪＧＡデータベースに格納されている。データ利用申請が承認されれば、ＴｏｇｏＶａｒで集計される前の個人ごとのゲノムデータも利用できる。; ＮＢＤＣヒトデータベース　ＵＲＬ：https://humandbs.biosciencedbc.jp/; ＪＧＡ　ＵＲＬ：https://www.ddbj.nig.ac.jp/jga/index.html
注２）ｄｂＳＮＰ: 米国国立衛生研究所国立生物工学情報センターが運営する１～数塩基の置換、挿入／欠失、反復などのゲノム多型情報からなるデータベース。
注３）ＥｘＡＣ（Ｅｘｏｍｅ　Ａｇｇｒｅｇａｔｉｏｎ　Ｃｏｎｓｏｒｔｉｕｍ）、ｇｎｏｍＡＤ（Ｇｅｎｏｍｅ　Ａｇｇｒｅｇａｔｉｏｎ　Ｄａｔａｂａｓｅ）: 米国ブロード研究所が運営する世界中の大規模配列解析プロジェクトから収集した個人ごとのゲノムデータからバリアントを検出して集約したデータベース。ＥｘＡＣには約６万人のエクソーム^注６）解析によって検出したバリアントが、その後継であるｇｎｏｍＡＤには約１２万人のエクソーム解析と約１．５万人の全ゲノム解析から検出したバリアントがそれぞれ収録されている。; ＥｘＡＣ　ＵＲＬ：http://exac.broadinstitute.org/; ｇｎｏｍＡＤ　ＵＲＬ：http://gnomad.broadinstitute.org/
注４）ＣｌｉｎＶａｒ: 米国国立衛生研究所国立生物工学情報センターが運営するバリアントの臨床的意義（ｃｌｉｎｉｃａｌ　ｓｉｇｎｉｆｉｃａｎｃｅ）を整理したデータベース。; ＣｌｉｎＶａｒ　ＵＲＬ：https://www.ncbi.nlm.nih.gov/clinvar/
注５）ＲＤＦ（Ｒｅｓｏｕｒｃｅ　Ｄｅｓｃｒｉｐｔｉｏｎ　Ｆｒａｍｅｗｏｒｋ）: インターネット上にあふれる情報を活用するには、コンピューターで自動的に処理し、高度に利用する技術が必要である。そこで、インターネットの国際標準化団体であるワールド・ワイド・ウェブ・コンソーシアムは、インターネット上の情報をコンピューターでより処理しやすいものにするための国際的な標準形式としてＲＤＦ形式を提案している。ＲＤＦ形式で記述されたデータは、コンピューターが自動的に処理し、相互運用可能となる。研究者は多種多様なデータを連携させて利用できるようになる。
注６）エクソン、エクソーム: ゲノム配列はたんぱく質を生成する元の情報となる領域と使用されない領域に分かれており、前者の領域をエクソン（ｅｘｏｎ）と呼ぶ。ゲノム中のすべてのエクソンの総体をエクソーム（ｅｘｏｍｅ）と呼ぶ。
注７）ＳＮＰ（Ｓｉｎｇｌｅ　Ｎｕｃｌｅｏｔｉｄｅ　Ｐｏｌｙｍｏｒｐｈｉｓｍ）: ゲノム上のバリアントのうち、一定以上の頻度で存在する一塩基置換のこと。

＜本成果が貢献しうる持続可能な開発目標（ＳＤＧｓ）＞

目標３

あらゆる年齢のすべての人々の健康的な生活を確保し、福祉を促進する

ＳＤＧｓは、平成２７年９月の国連総会において採択された「持続可能な開発のための２０３０アジェンダ」の中核となる「人間、地球および繁栄のためのより包括的で新たな世界共通の行動目標」です。

http://www.unic.or.jp/activities/economic_social_development/sustainable_development/2030agenda/

＜お問い合わせ先＞

＜ＴｏｇｏＶａｒデータベースに関すること＞

三橋信孝（ミツハシノブタカ）
科学技術振興機構バイオサイエンスデータベースセンター（ＮＢＤＣ）
〒102-8666 東京都千代田区四番町５番地３
Tel：03-5214-8491　Fax：03-5214-8470
E-mail：

片山俊明（カタヤマトシアキ）、川島秀一（カワシマシュウイチ）
情報・システム研究機構データサイエンス共同利用基盤施設
ライフサイエンス統合データベースセンター（ＤＢＣＬＳ）
〒277-0871 千葉県柏市若柴１７８－４－４東京大学柏の葉キャンパス駅前サテライト６階
Tel：04-7135-5508　Fax：04-7135-5534
E-mail：

＜ＮＢＤＣ事業に関すること＞

舘澤博子（タテサワヒロコ）
科学技術振興機構バイオサイエンスデータベースセンター（ＮＢＤＣ）
〒102-8666 東京都千代田区四番町５番地３
Tel：03-5214-8491　Fax：03-5214-8470
E-mail：

＜報道担当＞

科学技術振興機構広報課
〒102-8666 東京都千代田区四番町５番地３
Tel：03-5214-8404　Fax：03-5214-8432
E-mail：

情報・システム研究機構データサイエンス共同利用基盤施設

ライフサイエンス統合データベースセンター（ＤＢＣＬＳ）
広報担当　箕輪真理（ミノワマリ）
〒277-0871 千葉県柏市若柴１７８－４－４東京大学柏の葉キャンパス駅前サテライト６階
Tel：04-7135-5508　Fax：04-7135-5534
E-mail：

（英文）“JST releases “TogoVar”, an integrated database for Japanese genome variants/variations —One-stop service for genome variant research frees researchers from tedious web search tasks—”

日本人ゲノム多様性統合データベース「ＴｏｇｏＶａｒ」運用開始

～ゲノム医科学研究に役立つ情報をワンストップで提供～