第Ⅰ期(平成13年度~17年度)

研究課題名 2項関係に基づくゲノムと生命システムの機能解読
代表研究者
(氏名・所属)
金久 實
(京都大学化学研究所、教授)
概要

ヒトからバクテリアまで数多くの生物種において全ゲノム配列が決定され、21世紀の生命科学ではこのゲノムの情報を基盤に、細胞、個体、生態系といった異なるレベルでの生命現象の理解が進み、同時にゲノムから有用性を見いだし産業化を行う応用研究が活発化すると考えられる。これまでに決定されたゲノムの配列情報は国際DNAデータベースDDBJ/EMBL/GenBankに登録され、誰でも自由に利用できる形になっている。しかしそれだけでは不十分であり、ゲノムに書かれた生命のはたらや有用性を見いだすことを可能にするデータベースがなければならない。ゲノム情報科学におけるデータベース高度化の一貫として、本計画では新しいタイプの機能情報データベースBRITEを構築する。

機能情報のデータベース化については、様々なやり方がある。1つは配列データベースのアノテーションのように、言葉として記述することである。機能情報はただ利用者が読んで理解できればよいとするのなら別であるが、一般には生物種間の比較をしたり、誰がアノテートしても、また誰が読んでも同じ意味をもたせるために、語彙の標準化を行わなければならない。これは狭い意味でのオントロジーの問題である。たとえば、ショウジョウバエ、マウス、酵母のゲノムを中 心としたGene Ontologyのグループでは、知識の共有のために基本概念と語彙の定義を行っている。

2つ目は我々がKEGG (Kyoto Encyclopedia of Genes and Genomes) において提唱し実践しているやり方で、細胞レベルの生命システムのはたらきを分子間相互作用ネットワークの「かたち」として表現する。ゲノムの遺伝子の並びからタンパク質同士のつながり方を予測し、そこから例えばリジンを合成するはたらきがある、浸透圧変化に応答するシグナル伝達のはたらきがあると判定する。主観的な機能情報を客観的な形の情報に置き換えているところがKEGGの特色である。これは逆の言い方をすると、KEGGのネットワーク表現ができる機能情報とは、分子間ネットワークが解明されたものに限られるわけで、例えばこの遺伝子は細胞周期に関与しているらしいといった手がかり程度では、KEGGでは表現ができない。

本来、機能とは曖昧なものであり、大雑把な手がかりであっても有用性はあり得る。そこで本計画のBRITE (Biomolecular Relations in Information Transmission and Expression) では、第3の機能表現として2項関係を用いる。2項関係とは2つのオブジェクトの関係情報であり、ここでは配列と機能との関係、立体構造と機能との関係、ネットワークと機能との関係、分子機能と細胞機能との関係、といったあらゆる機能を含めて考える。機能情報はオントロジーで規定された語彙で表現するが、1番目のやり方ように機能を配列の属性とみなすのではなく、2項関係を構成するオブジェクトとみなす点が新しい。この表現法により、関係の集合からコンピュータ処理で演繹することが可能となる。

ゲノムの全塩基配列が決定された結果として、世界中で各生物種での個別研究が進み、多くの遺伝子の機能が続々と解明されている。しかし、継続的な遺伝子機能アノテーションを誰が行うかは、実は大きな問題となっている。GenBank等に登録されたデータは配列決定をした著者しか変更できないため、酵母等研究コミュニティでデータベースを維持している場合を除き、ほとんどの生物種では、新しい機能情報はPubMedの中に埋もれるだけで、共有できる知識としてのコンピュータ化は全くなされていない。本計画では、このような現状に対処し、ゲノムの機能情報を提供する国際的な基盤データベースを確立し、機能情報における我が国の知的所有権と、それに基づく機能解読技術力の優位性を確保することを目的とする。

関連リンク BRITEホームページ[外部リンク]

研究課題名 シグナルオントロジーとバイオタームバンクの開発
代表研究者
(氏名・所属)
高木 利久
(東京大学大学院新領域創成科学研究科 教授)
概要

基本構想

1-1 ゲノムサイエンスにおけるオントロジー開発の必要性
あいつぐモデル生物のゲノム配列決定により、従来のひとつのモデル生物を対象とする研究から、生物界全体を対象とする新しい研究が産まれつつある。モデル生物種間の比較解析による新しい生命科学の知識発見のためには、これまで蓄積された膨大なデータを生物界全体で統合して捉え直し、これまで開発された様々な解析技術を効果的に適用できるように、研究環境を整えることが求められる。

オントロジーは、データと解析技術の効果的な利用環境を整えるための情報技術である。オントロジーは、対象とする分野のデ-タの特徴を抽出し(概念化)、概念の性質や互いの関係を明示的に定義したものである。オントロジーを定義することにより、分野の知識と解析技術を明確に分離することができ、両者を独立に再利用することが容易となる。

ゲノムサイエンスにおけるオントロジーの開発は、これまでモデル生物ごとに蓄積されてきた知識を洗い直し、生物の共通の知識を抽出し(概念化)、その知識の性質と関係を記述することで、生命科学の概念の仕様書をつくることである。生命科学における研究分野は多岐に渡っているので、各々の研究分野に応じた複数のオントロジーが必要とされるが、我々は本プロジェクトにおいて、シグナル伝達系と、生体科学の用語、を対象としたオントロジーを開発する。

1-2 シグナル伝達系のオントロジーとデータベース
シグナル伝達系は、多細胞生物における、発生、分化、成長、運動、日周期の調整、生体異物応答、ストレス応答といった、さまざまな生体作用を制御するシステムである。シグナル伝達応答の特徴は、単独の分子ではなく、パスウェイあるいはネットワークという多数の分子の相互作用によって制御されることにある。

ゲノムサイエンスにおけるパスウェイ研究の重要性は、解析されたモデル生物の遺伝子総数が予想より少なかった事実から、強調されるようになった。現在のところ、ヒトの遺伝子総数は約4万個で、線虫の2倍、ショウジョウバエの3倍であると見積もられている。この結果は、生物進化における機能獲得については、新規の遺伝子の創出よりもむしろ、分子間相互作用の多様性の創出が本質的であることを示唆している。また産業応用の視点からもパスウェイ研究は注目されている。微生物のパスウェイデータベースは、微生物を利用した化合物生産のための情報源として、また工業廃棄物の環境における分解反応の情報源として、利用価値が高い。また医学・薬学においては、より作用範囲が限定された副作用の少ない治療法の開発のために、生体内パスウェイ情報に基づく、生体反応を総合的に考慮した新しい創薬が必要、との認識が高まっている。パスウェイ研究において、代謝系については、シソーラス、オントロジー、データベース、情報解析技術の開発が活発に進められている。一方シグナル伝達系については、研究の進行が遅れている。シグナル伝達系のオントロジーの開発は、この現状を打開し、シグナル伝達系の情報学的研究の推進に貢献すると考えられる。シグナル伝達系のオントロジーが完成すれば、世界で初めての成果となる。

平行して、シグナル伝達系のデータベース開発を行う。データベースはオントロジーのインスタンスあるいは外延である。オントロジーによって定義付けられた概念は、実在する分子の性質や関係にインスタン化されることで、初めて解析技術を適用し得る。インスタン化は、シグナル伝達系を構成する全分子を対象としなくてはならないので、開発には多大な労力が掛かる。小規模の研究室や営利団体では達成し難い研究課題であり、本プロジェクトのような大規模な公的資金で実施されることが望ましい。前述のとおりシグナル伝達系のデータベースも開発が遅れており、その完成は、全世界のゲノム研究と産業界両方から期待が寄せられている。

我々はシグナル伝達系のオントロジーおよびデータベース開発において、この系を表現する新しいモデルを提案している。これまでは、この系を「シグナル」という何らかの作用が伝搬するというモデルが使われていたが、シグナル伝達系パスウェイ研究の遅延は、このモデルの限界にあると考えられる。我々は、生物種間で共通な反応のグループを単位としたモデルを提案し、すでに一部を開発して一般に公開している(SIGNAL-ONTOLOGY)。本プロジェクトでは、SIGNAL-ONTOLOGYの開発をさらに進めるとともに、SIGNAL-ONTOLOGYの外延となるシグナル伝達のデータベースを開発する。

1-3 生命科学の用語のオントロジーとデータベース
生物界全体を対象とした新しいゲノムサイエンスのためには、各モデル生物に分かれて開発されてきたゲノムデータベースの、統合が必要である。ゲノムデータベースの統合的利用と解析の環境整備として、オントロジーが必要とされている。分子の生体機能に関してゲノムデータベースを統合的利用するためのオントロジーは、Gene Ontologyのグループが先行して開発を進めている。我々の研究室ではタンパク質の分子名に関するテキストマイニング研究を行っており、この研究実績を生かして、分子の名称を対象としたオントロジーを開発する。同時にオントロジーの外延であるデータベースを併せて開発する(BioTerm Bank)。

BioTerm Bankが対象とする分子の名称は、Gene Ontologyが対象とする分子の機能に比較すると、かなりシンプルである。しかしシンプルであるが故に一般の研究機関では研究対象として設定し難く、必要性の高さにも関わらず、未だ世界中で利用できる形で公開されているものはない。したがってBioTerm Bankの開発は、本プロジェクトのように大規模な公的資金を利用したデータベース開発に相応しい課題である。またゲノム研究を支える基盤データベースとして、これまで少なかった日本からの貢献を増やし、ゲノムサイエンスにおける日本の国際地位の向上にも寄与すると考えられる。BioTerm Bankはデータベースの統合だけでなく、生物学のテキストマイニングの知識基盤としても役立つ。

関連リンク オントロジープロジェクトのホームページ

研究課題名 ゲノム生物学バックボーンデータベースの構築提供
代表研究者
(氏名・所属)
菅原 秀明
(国立遺伝学研究所 教授)
概要 基本構想

1)背景
・2000年にゲノムデータを含む国際塩基配列データの規模が15万生物種、1000万件、100億塩基を超え、キーワード検索あるいは相同性検索を加えても、必要なデータを過不足なく抽出することが困難になってきた。・蛋白質を代表とする生体高分子の立体構造や機能のデータベースや生体反応の経路に関するデータベースなど、幅広い生命現象の要素データベースも急速に拡大中である。
・さらに、マイクロアレー/DNAチップ、TOFなどの新しい実験手法が生み出す膨大な実験データのデータベース化も個々に進んでいる。
・生命現象を理解するためにはこれらの多種多様なデータベースを柔軟に統合利用することが必要である。なぜならば、個々の遺伝子とそれに対応する蛋白質の構造と一般的機能が分かっても、遺伝子ネットワークの構造と時間的動きを理解して始めて声明現象を理解できるからである。
・統合利用を可能にするためには、相互運用性を実現するための情報技術、意味論上の整合性を実現するためのオントロジーならびに、GIGO効果をもたらさないために要素データベースの品質管理が重要である。・また、統合したデータから情報と知識をする抽出するために、いわゆるデータマイニングの技術開発が必要である。・それに加えて、検索ならびにマイニングの結果の優れた可視化が必要である。特に、時間的空間的要素(4次元(3D+T))を理解できるインターフェースが必要である。
・新世代のデータベースは、静的にデータを蓄積したものにとどまらない。モデルをもとに、実験データの自己組織化機能と、生命現象のシミュレーション結果を含む自己増殖機能を備えたダイナミックなシステムとなる。

2)研究開発のねらい・着眼点、コンセプト、将来展望
・「高品位配列データベースシステム」と「高品位配列データベース」を研究開発し、ゲノム科学研究のバックボーンを提供する。前者は、ゲノム科学研究グループで利用可能とし、後者はインターネットから広く一般に利用可能とする。
・生命現象の時間軸からの解析を可能とする「四次元データベース」を研究開発し、世代を超えた生命情報の伝達および個体の発生から死までの生命情報の発現にかかわるシミュレーションを可能とするプラットフォームを提供する。
関連リンク Backbone Databases in Genomicsホームページ[外部リンク]
DDBJホームページ[外部リンク]

研究課題名 蛋白質立体構造データベースの高度化
代表研究者
(氏名・所属)
中村 春木
(大阪大学蛋白質研究所、教授)
概要

1.背景
世界的なゲノム・プロジェクトの進展によって、1個体を規定する遺伝子の総体であるゲノム情報が、様々な生命体に対して明らかにされつつある。蓄積された膨大な量のゲノム情報が生命活動においてどのような意味を持っているかの解析、すなわち遺伝子型と個体における表現型とを結ぶ作業が、これからのゲノム科学の一つの大きな課題である。
特に、現在進められている「構造ゲノム科学」では、解明したい遺伝子情報を、アミノ酸配列からその蛋白質立体構造として理解し、立体構造に基づいたその分子の生化学的機能と蛋白質間相互作用の解析を通じて、個体の生命活動までを記述しようとする。国内外で5年~7年の間に、全ファミリーを代表する立体構造として約1万種類の蛋白質立体構造を決定しようとする構造ゲノム科学プロジェクトが推進されており、日本でも、科学技術会議が、この構造ゲノム科学とその支援体制構築の重要性を提言している(平成12年11月17日「構造ゲノム科学研究における我が国の戦略について」科学技術会議ライフサイエンス部会ゲノム科学委員会)。
そのアウトプットとしての蛋白質立体構造情報は、それゆえ、たいへん重要な位置づけにあり、ゲノムの配列情報と、蛋白質機能の情報、個体の表現型の情報がクロス・オーバーする「キー」となるべき位置に、蛋白質立体構造データベースが存在している。

2.蛋白質立体構造データベースの現状
世界中の構造生物学の研究者が決定した様々の蛋白質の立体構造は、蛋白質立体構造データベースに整理されて蓄積されてきた。歴史的には、PDB(Protein Data Bank)と呼ばれるデータベースが、1971年に誕生して以来、米国Brookhaven National Laboratory (BNL)が管理・運営を1999年5月まで継続してきた。しかし、1999年6月から、Rutgers大学、San Diego Supercomupter Center (SDSC)、National Institute of Standards and Technology (NIST) の3者が協力して運営するResearch Collaboration for Structural Bioinformatics (RCSB)という組織が、BNLに替わって管理・運営を開始した。このデータベース維持のため、RCSBはNational Science Foundation (NSF)から1千万ドル、5年間のグラントをもらい、Rutgers に13名、SDSC に11名、NISTに8名、総勢32名の規模で、プロジェクトを進めている。RCSBにおけるデータベース運営の最も大きな特徴は、RCSBでは、管理・運営を合理化したのみでなく、データ・フォーマットの変更、自動登録ソフトの開発など、登録者および閲覧者の利用の簡便化等を進めている。データの量は近年急速に増加し、2000年末までには1万4千件近い量の立体構造データが登録され、公開されている。登録数は、米国からは約50%、ヨーロッパからは30%、アジアから は10%でその半分ほどが日本からだと言われている。具体的には、2000年の第一四半期では、登録全数587件のうち、アジア・オセアニア地区からは89件(15%)、その内日本からは43件(7.3%)であった。一方、EBI(European Bioinformatics Institute)では、MSD(Macromolecular Structure Database) プロジェクトというのを、PDBとは独立したデータベース管理システムとしてスタートさせている 。

日本では、大阪大学蛋白質研究所・立体構造データ解析研究系が、米国PDBデータベースのアジア・オセアニア地区での公式のアーカイブとして、RCSBと協力してデータベース管理・運営を行っており、特に2000年7月からは、日本国内はもとよりアジア・オセアニア地区の構造生物学者が解析した立体構造情報の新規登録作業を開始し、2001年2月末までに179件の新規データの登録作業を行った。しかし、その運営体制はRCSBに比べるとたいへん貧弱であり、2名の専門編集委員が作業を行っており、その運営資金は、科学技術振興事業団の計算科学技術活用型特定研究開発推進事業「蛋白質立体構造データベースの構築と利用システムの開発」研究費(平成10年後期-平成13年後期)にのみ依存している。ところで、NMRによって決定された立体構造もPDBには登録されているが、単なる分子の構造以外にも、各蛋白質中で同定された炭素、窒素、水素の各スピンの化学シフト情報が、BioMagResBank (BMRB)というデータベースに集積されている。これは、Wisconsin大学のJohn L. Markleyによって1996年からスタートしたものである。このデータベースに対しては、日本国内で対応し国際協力を行っている所が未だにないが、やはり大阪大学蛋白質研究所でその対応を進めている所である。

3.研究開発「蛋白質立体構造データベースの高度化」の意義
現在までのPDBデータベースは、構造生物学研究の成果をまとめあげたデータベースであったが、今後の構造ゲノム科学とそのプロジェクトの進展によって、ゲノム情報との結びつきがさらに強まり、大きな付加価値が付け加わって、産業的価値も高まるものと思われる。具体的には、以下の意義がある。
(1)ゲノム中の各遺伝子に対応する蛋白質について、その立体構造、あるいは既に立体構造の決定された類似の蛋白質構造から得られる立体構造モデルがデータベースから理解でき、ゲノム情報の構造を通した理解が進み、遺伝子の情報がどのようなメカニズムで機能発現に関わっているかについての合理的な解釈が可能となり、構造ゲノム科学の成果を統合化できる。
(2)ゲノム中の各遺伝子に対応する蛋白質の構造(高分解能)を決定する場合に、上記したモデル構造あるいは既に立体構造の決定された相同蛋白質の構造を利用することで、迅速な構造決定がなされる。
(3)ゲノム中の各遺伝子に対応する蛋白質の機能を理解するため、相互作用する相手の分子との複合体構造の構造決定が迅速で高精度になされる。
(4)創薬開発の効率化が進む。これまで、薬物設計において、ランダムに試行を繰り返す帰納的方法の方が、ドラッグ・デザインにおける構造からの演繹的薬物設計に対して有効であった。しかし、ランダム・スクリーニングでは作用点の探索・確認の効率が悪い。立体構造データベースの活用によって、これら蛋白質の立体構造を基に、物理化学を基礎においた薬物設計が急速に進展することが期待される。
(5)バイオインフォーマティクスを活用した構造データと機能データとを結ぶ帰納的な方法が開発されれば、「構造」と「機能」のギャップを埋めることができ、ゲノム科学をさらに進展することができる。
(6)科学的価値および産業的価値の高い蛋白質立体構造データベースを、国際的に協力して運営し高度化していくことによって、科学技術における日本の寄与を定量的に示すことができる。
(7)現在整備されているPDBは、研究者の間でのみ使われており、必ずしも高校生あるいは大学学部生にとっての教育用を目的としたものではない。本研究開発課題の中の一部に、データベースの高度化とともに教育用データベースも開発しておくことによって、将来の人材育成にも役立たせる。

関連リンク PDBjホームページ[外部リンク]