事業成果

研究データをひろく、つなげて、つかいやすく

生命科学データの利活用のための研究開発2026年度更新

世界初となるヒトゲノム全体を網羅するハプロタイプデータベース
Joint Open Genome and Omics Platform (JoGo) を公開

九州大学 生体防御医学研究所の長﨑 正朗 教授らは、ヒト遺伝子を網羅するハプロタイプカタログを収載したデータベースを2025年11月に公開した。

長﨑教授らは、日本人105人を含む5大陸258人分のゲノム配列を用いて同定したハプロタイプカタログを構築し、それらを収載したデータベースJoint Open Genome and Omics Platform (JoGo)を公開した。ゲノム全領域にわたるハプロタイプカタログとしては、世界初のデータベースである。さらに、1,280人の不死化B細胞の遺伝子発現情報と統合し、遺伝子のハプロタイプと発現量の関係を調べられるようにした。

ヒトのゲノムの配列は99.9%が同じだが、残り0.1%の違いによって、特定の病気への罹りやすさや特定の薬の副作用の出やすさといった個人の体質の違いが決まる。これまで、一つ一つの遺伝子変異では説明できなかった個人の体質の違いを、複数変異の組合せを含む遺伝子の"型"「ハプロタイプ」としてとらえることで、人間の遺伝学的な多様性を広く説明できるようになることが期待される。

ハプロタイプのACTG階層的命名法

図1 ハプロタイプのACTG階層的命名法(A) JoGoポータルのコンテンツと機能。(B) 長﨑教授が提案する「ACTG階層的ハプロタイプ命名法」とJoGoに収載されたハプロタイプの数。(C) A、C、T、GレベルのハプロタイプIDの割り当てと階層的ハプロタイプIDの構築例。

HBB遺伝子座のオンラインハプロタイプエクスプローラー表示と詳細表示

図2 HBB遺伝子座のオンラインハプロタイプエクスプローラー表示と詳細表示(A)ランク付けされたハプロタイプID(例:a1、c1、t1、g1)と代表的な配列モチーフおよび色分けされたアレル差異が表示される。(B)上部のカラーバーは各バリアントのグローバル頻度を示し、ツールチップにはJoGo参照集団全体のアレル数が表示される。左側のカラーバーは各Aレベルハプロタイプのグローバル頻度を示す。変異体をクリックするかマウスを移動すると、ClinVar の疾患との関連情報が表示され、変異体の注釈を集約しているTogoVar の対応レコードへのリンクが提供される。

HBB遺伝子座のハプロタイプの表示

図3 HBB遺伝子座のハプロタイプの表示(A)公開されているゲノム情報(1)と、JoGoデータ(2)がゲノム座標上に表示され、共通配列領域と相違配列領域を並べて探索できる。(B) 例として示したHBB遺伝子のアミノ酸置換を伴うハプロタイプの多重配列アライメント。(C) HBB遺伝子座の連鎖不平衡(LD)ヒートマップ。(D) 5つのJoGo参照集団(EAS、AFR、AMR、SAS、EUR)におけるAレベルHBB遺伝子のハプロタイプの集団別カウント。集団内および集団間のハプロタイプ多様性の比較ができる。

Shin-MassBankプロジェクトで1,000件以上の生体サンプル由来の高精度スペクトルをMassBankに登録

高品質なメタボロームの実測スペクトルデータベースMassBankはBIRDの支援で構築されて2006年に日本で誕生した。2011年からはドイツのNORMAN協会の支援で欧州MassBankサーバーが稼働し、世界中の多くの研究者によって使われている。一方で、標準品のスペクトルを中心としていたため、収載スペクトルの少なさが課題とされていた。

大阪大学の松田 史生教授らのShin-MassBankプロジェクトでは、生体サンプル由来の高品質スペクトルによってMassBankコンテンツを拡張していくことを目指している。Shin-MassBankは、生データリポジトリのMB-POST、ヒトとマウス由来の高精度スペクトルを収載するMassBank Human、化合物の予測スペクトルを収載するMassBank in silicoから構成される。現在、MassBank Human とMassBank in silico はβ版だが、2025年10月にMB-POSTを正式公開した。MB-POST に登録された8件の生体サンプル由来のデータセットをMassBank Humanで解析し得られた21,923スペクトルについて、MassBank in silicoで構造情報を付与し、専門家によるレビューを経て、1,024件の新規な高精度スペクトラムをMassBankに登録した。

Shin-MassBankプロジェクトのワークフロー

図4 Shin-MassBankプロジェクトのワークフロー

植物共発現データベース「ATTED-II」の収載植物種が19種20系統に拡張され、新たな種間比較解析ツールを実装

東北大学 大学院情報科学研究科の大林 武 教授らは、植物の遺伝子共発現データベース「ATTED-II」をアップデートし、共発現情報を収載する植物種を大幅に拡張するとともに、種をまたいだ共発現関係を比較する新たな解析ツールを実装した。

現在、シロイヌナズナ(標準種/非標準種)トマト、タルウマゴヤシ、ダイズ、ポプラ、ブドウ、セイヨウアブラナ、アプランドワタ、ジャガイモ、タバコ、オレンジ、コメ(ジャポニカ米/インディカ米)、トウモロコシ、コムギ、オオムギ、タカキビ、ミナトカモジグサ、クラミドモナスの19種20系統の遺伝子共発現情報が収載されている。また、新たに実装されたメゾスケールでの種間比較解析ツールでは、葉緑体や細胞核といった細胞内局在別の共発現マップを表示することで、遠縁種間での共発現遺伝子の類似性や相違点を比較解析できるようになった(図5)。

  • (A) 葉緑体に局在する光合成関連遺伝子

    (A) 葉緑体に局在する光合成関連遺伝子
  • (B) 細胞核に局在するリボソーム生合成関連遺伝子

    (B) 細胞核に局在するリボソーム生合成関連遺伝子

図5 新たに実装された種をまたいだ共発現関係を比較する解析ツール
(メゾスケールのCoex Viewer)
(A) 葉緑体で共発現する遺伝子の植物種間比較。左から、シロイヌナズナ(Ath)、ブドウ(Vvi)、トウモロコシ(Zma)、コメ(Osa)。上段は全遺伝子での共発現遺伝子マップ、下段は葉緑体に局在するタンパク質の遺伝子の共発現マップ。赤丸は光合成関連遺伝子(KEGG:00195)を示す。全遺伝子で見ると光合成関連遺伝子(KEGG:00195)の局在に一貫性が見られなかったが、葉緑体局在に着目すると種間で一貫した配置を示した。(B) 細胞核で共発現する遺伝子の植物間比較。左から、シロイヌナズナ(Ath)、ブドウ(Vvi)、トウモロコシ(Zma)、コメ(Osa)。上段は全遺伝子での共発現遺伝子マップ、下段は細胞核に局在するタンパク質の遺伝子の共発現マップ。赤丸はリボソーム生合成関連遺伝子(KEGG:03008)を示す。全遺伝子で見るとリボソーム生合成関連遺伝子(KEGG:03008)の局在に一貫性が見られなかったが、細胞核局在に着目すると種間で一貫した配置を示した。