別紙2

データベース高度化・標準化の対象の説明


1. 研究開発課題「ゲノム生物学バックボーンデータベースの構築提供」の概要
   
 国立遺伝学研究所生命情報・DDBJ研究センターは、本研究課題において、「高品位データベース」と「四次元データベース」を開発する。これらのデータベースこそ、そのデータの量と質が爆発的に拡大するゲノム生物学のバックボーンになるからである。
 DDBJ(DNA Data Bank of Japan)は国際塩基配列データベース(International Nucleotide Sequence Database (INSD))を構成する3極のデータバンクの一つである。このINSDの規模が2000年に1000万件100億塩基対を超えた。INSDの増加速度は、ヒトゲノムドラフトシークエンシングの論文発表後も衰えることなく、年間に換算した増加率は現在も2~3倍である。一方、新規配列の生物学的意味を推定するために、INSDに対して天文学的な回数の相同性検索が世界中で行われて、データベース(以下、DB)中のアノテーション(生物学的意味付け)の情報が新規配列のアノテーションに利用されている。したがって、INSDは21世紀には「量」の爆発に対応するとともにアノテーションの「質」を高めた高品位DBへと成長していくことが求められる。このために、運用中の大量登録システム(Mass Submission System (MSS), http://www.ddbj.nig.ac.jp/ddbjnew/masssub-e.html)、DDBJ内レビューシステム(YAMATOIIさらにTSUNAMI)、微生物ゲノム統合検索システム(Genome Information Broker (GIB), http://gib.genes.nig.ac.jp/)そして全ゲノム蛋白質立体構造DB(GTOP,http://spock.genes.nig.ac.jp/%7Egenome/gtop.html)を出発点として新世代の高品位DBシステムを開発する。GTOPについては、対象生物を拡大するとともに、全原子の予測と計算プロテオームを目指す。また、フィンランドの学生が原型を開発した後これまでに世界中の2000人ともいわれるボランティアが智恵を結集してきたLinuxの発展をモデルとして、研究コミュニティーによるアノテーション機能も備えたOpen Annotation Systemも目指す。
 さてゲノム生物学の発展の過程で、大量のクローンの塩基配列を高速に決定する技術とともに、発生過程でのさまざまな遺伝子の発現、遺伝子カスケード、生体高分子の局在と相互作用などを測定する技術が急速に発達し、時間軸にそった2次元あるいは3次元データが急増中である。これらのデータを蓄積したDBは、塩基配列DBに続いてゲノム生物学のバックボーンになっていく可能性がある。したがってこうした新しいタイプの生物データについてもアーカイブの構築と利用技術の開発が求められている。
 本研究課題においては、国際的に標準化の検討が進んでいるマイクロアレDB(Micro-Array Database(MADB))に加えて、遺伝子発現データを時間的空間的に自在に閲覧し対話型の解析をも可能とするBioSimulated Database (BSD)を独自に開発する。いうまでもなくMADBとBSDはINSDと連携することによって、ゲノム生物学の特徴である網羅的かつ統合的データ解析を可能たらしめる。
   
2. 研究開発課題「蛋白質立体構造データベースの高度化」の概要
   
 世界的なゲノム・プロジェクトの進展によって、1個体を規定する遺伝子の総体であるゲノム情報が、様々な生命体に対して明らかにされつつある。現在進められている「構造ゲノム科学」では、解明したい遺伝子情報を、アミノ酸配列からその蛋白質立体構造として理解し、立体構造に基づいたその分子の生化学的機能と蛋白質間相互作用の解析を通じて、個体の生命活動までを記述しようとする。国内外で5年~7年の間に、全ファミリーを代表する立体構造として約1万種類の蛋白質立体構造を決定しようとする構造ゲノム科学プロジェクトが推進されており、日本では理化学研究所を中心とするプロジェクトが立ち上がっている。蛋白質立体構造データベースは、これらの成果を蓄積・整理し、活用する場を与えるものであり、ゲノムの配列情報と、蛋白質機能の情報、個体の表現型の情報がクロス・オーバーする場となる。
 世界中の構造生物学研究者が決定した様々の蛋白質の立体構造は、蛋白質立体構造データベース:PDB(Protein Data Bank)に蓄積されてきた。米国では、Rutgers大学、San Diego Supercomupter Center (SDSC)、National Institute of Standards and Technology (NIST) の3者が運営するResearch Collaboration for Structural Bioinformatics (RCSB)という組織が、データベース構築と管理を行っており、ヨーロッパではEBI(European Bioinformatics Institute)が 、日本では、大阪大学蛋白質研究所・立体構造データ解析研究系が、それぞれ公式のアーカイブとして、RCSBと協力してデータベースの構築と管理を行っている。
 現在までのPDBデータベースは、構造生物学研究の成果をまとめあげたデータベースであったが、今後の構造ゲノム科学とそのプロジェクトの進展によって、ゲノム情報との結びつきがさらに強まり、大きな付加価値が付け加わって、産業的価値も高まるものと思われる。本研究課題では、大阪大学蛋白質研究所において、従来不足していた蛋白質機能情報をこのデータベースに付加し、XML化によって、ゲノム情報と構造・機能との一連の関連性を迅速に解析するための一次データベースとしての価値を高め、さらに蛋白質構造を基にした二次データベースの構築や新たな構造バイオインフォマティクスのサービスを行う。同時に、PDBデータベースに加えて生体分子に関わるNMRデータベースについてもデータの登録・管理を推進する一方、蛋白質に関わる教育用データベースも作成する。
   
3. 開発課題「シグナルオントロジーとバイオタームバンクの開発」の概要
   
 ゲノムサイエンスの最終目標は、ゲノムにコードされた生命のメカニズムをシステムとして解き明かすことである。多くの生物のゲノム配列の解読がほぼ終了した現在、次に取り組むべき課題はゲノムにコードされた遺伝子を、配列情報という1次元の空間から生体内の3次元空間へ解き放ち、その働きを空間的時間的な文脈において解析することである。
 このような解析においては、もちろん実験科学からのアプローチが欠かせないが、一方で、これまで実験科学で得られた膨大な知識を計算機に入れて整理体系化し、包括的に情報解析できるような基盤を整備しなければならない。そうしなければ、生命の複雑なメカニズムを解き明かすことは不可能である。ヒトの遺伝子総数はおおよそ3万個から4万個と推定されているが、このような膨大な数の遺伝子を総合して考察することは、完全に人間の認識能力を超えている。したがって、いま述べたような計算機による生物知識の再構築が不可欠である。
 しかしながら、遺伝子/生体分子の生体内の働き(機能)については、その知識を計算機に格納する有効な方法が、未だ見出されていない。そこで本研究では、分子の機能およびそれの背景にある分子のネットワークに関する知識を計算機に格納する方法や枠組みを開発するとともに、実際にそれをもとに知識のデータベース化を行う。われわれは、生物機能をデータベース化するためには、まず初めに機能の本質を明確にし、それを情報科学の言葉で形式的および体系的に書き表すことが必要であると考えている。このような知識体系や知識表現をオントロジーと呼ぶ。オントロジーに基づいて実際に個別の知識を収集したものがデータベースであると考える。
 本研究では、生命科学の知識を計算機が理解し解析できるようにするために、2種類のオントロジー/データベース構築を行う。一つは、生命科学の中でもその要である、生体制御を担うシグナル伝達系を対象としたオントロジー/データベースの構築である。もう一つは、生命科学の知識の全容を計算機化するために必要となる網羅的な生物用語辞書の構築である。このようなオントロジー/データベースの開発により、これまで蓄積されてきた膨大でしかしバラバラな生物知識と実験科学の種々の解析結果とを統合して解析することが可能となる。これにより、ゲノムにコードされたすべての遺伝子の情報と生体内メカニズムとの関連を今後総合的に解析できるようになるものと期待される。
   
4. 開発課題「2項関係に基づくゲノムと生命システムの機能解読」の概要
   
 ヒトからバクテリアまで数多くの生物種において全ゲノム配列が決定され、21世紀の生命科学ではこのゲノムの情報を基盤に、細胞、個体、生態系といった異なるレベルでの生命現象の理解が進み、同時にゲノムから有用性を見いだし産業化を行う応用研究が活発化すると考えられる。これまでに決定されたゲノムの配列情報は国際DNAデータベースDDBJ/EMBL/GenBankに登録され、誰でも自由に利用できる形になっている。しかしそれだけでは不十分であり、ゲノムに書かれた生命のはたらや有用性を見いだすことを可能にするデータベースがなければならない。ゲノム情報科学におけるデータベース高度化の一貫として、本計画では新しいタイプの機能情報データベースBRITEを構築する。
 機能情報のデータベース化については、様々なやり方がある。1つは配列データベースのアノテーションのように、言葉として記述することである。機能情報はただ利用者が読んで理解できればよいとするのなら別であるが、一般には生物種間の比較をしたり、誰がアノテートしても、また誰が読んでも同じ意味をもたせるために、語彙の標準化を行わなければならない。これは狭い意味でのオントロジーの問題である。たとえば、ショウジョウバエ、マウス、酵母のゲノムを中心としたGene Ontologyのグループでは、知識の共有のために基本概念と語彙の定義を行っている。
 2つ目は我々がKEGG (Kyoto Encyclopedia of Genes and Genomes) において提唱し実践しているやり方で、細胞レベルの生命システムのはたらきを分子間相互作用ネットワークの「かたち」として表現する。ゲノムの遺伝子の並びからタンパク質同士のつながり方を予測し、そこから例えばリジンを合成するはたらきがある、浸透圧変化に応答するシグナル伝達のはたらきがあると判定する。主観的な機能情報を客観的な形の情報に置き換えているところがKEGGの特色である。これは逆の言い方をすると、KEGGのネットワーク表現ができる機能情報とは、分子間ネットワークが解明されたものに限られるわけで、例えばこの遺伝子は細胞周期に関与しているらしいといった手がかり程度では、KEGGでは表現ができない。
 本来、機能とは曖昧なものであり、大雑把な手がかりであっても有用性はあり得る。そこで本計画のBRITE (Biomolecular Relations in Information Transmission and Expression) では、第3の機能表現として2項関係を用いる。2項関係とは2つのオブジェクトの関係情報であり、ここでは配列と機能との関係、立体構造と機能との関係、ネットワークと機能との関係、分子機能と細胞機能との関係、といったあらゆる機能を含めて考える。機能情報はオントロジーで規定された語彙で表現するが、1番目のやり方ように機能を配列の属性とみなすのではなく、2項関係を構成するオブジェクトとみなす点が新しい。この表現法により、関係の集合からコンピュータ処理で演繹することが可能となる。
 ゲノムの全塩基配列が決定された結果として、世界中で各生物種での個別研究が進み、多くの遺伝子の機能が続々と解明されている。しかし、継続的な遺伝子機能アノテーションを誰が行うかは、実は大きな問題となっている。GenBank等に登録されたデータは配列決定をした著者しか変更できないため、酵母等研究コミュニティでデータベースを維持している場合を除き、ほとんどの生物種では、新しい機能情報はPubMedの中に埋もれるだけで、共有できる知識としてのコンピュータ化は全くなされていない。本計画では、このような現状に対処し、ゲノムの機能情報を提供する国際的な基盤データベースを確立し、機能情報における我が国の知的所有権と、それに基づく機能解読技術力の優位性を確保することを目的とする。


This page updated on June 22, 2001

Copyright©2001 Japan Science and Technology Corporation.

www-pr@jst.go.jp