ホーム > 研究支援 > 研究開発への支援 > 生命情報データベースの高度化・標準化 > 第Ⅰ期(平成13年度~17年度)
第Ⅰ期(平成13年度~17年度)
研究課題名 | 2項関係に基づくゲノムと生命システムの機能解読 |
---|---|
代表研究者 (氏名・所属) |
金久 實 (京都大学化学研究所、教授) |
概要 | ヒトからバクテリアまで数多くの生物種において全ゲノム配列が決定され、21世紀の生命科学ではこのゲノムの情報を基盤に、細胞、個体、生態系といった異なるレベルでの生命現象の理解が進み、同時にゲノムから有用性を見いだし産業化を行う応用研究が活発化すると考えられる。これまでに決定されたゲノムの配列情報は国際DNAデータベースDDBJ/EMBL/GenBankに登録され、誰でも自由に利用できる形になっている。しかしそれだけでは不十分であり、ゲノムに書かれた生命のはたらや有用性を見いだすことを可能にするデータベースがなければならない。ゲノム情報科学におけるデータベース高度化の一貫として、本計画では新しいタイプの機能情報データベースBRITEを構築する。 機能情報のデータベース化については、様々なやり方がある。1つは配列データベースのアノテーションのように、言葉として記述することである。機能情報はただ利用者が読んで理解できればよいとするのなら別であるが、一般には生物種間の比較をしたり、誰がアノテートしても、また誰が読んでも同じ意味をもたせるために、語彙の標準化を行わなければならない。これは狭い意味でのオントロジーの問題である。たとえば、ショウジョウバエ、マウス、酵母のゲノムを中 心としたGene Ontologyのグループでは、知識の共有のために基本概念と語彙の定義を行っている。 2つ目は我々がKEGG (Kyoto Encyclopedia of Genes and Genomes) において提唱し実践しているやり方で、細胞レベルの生命システムのはたらきを分子間相互作用ネットワークの「かたち」として表現する。ゲノムの遺伝子の並びからタンパク質同士のつながり方を予測し、そこから例えばリジンを合成するはたらきがある、浸透圧変化に応答するシグナル伝達のはたらきがあると判定する。主観的な機能情報を客観的な形の情報に置き換えているところがKEGGの特色である。これは逆の言い方をすると、KEGGのネットワーク表現ができる機能情報とは、分子間ネットワークが解明されたものに限られるわけで、例えばこの遺伝子は細胞周期に関与しているらしいといった手がかり程度では、KEGGでは表現ができない。 本来、機能とは曖昧なものであり、大雑把な手がかりであっても有用性はあり得る。そこで本計画のBRITE (Biomolecular Relations in Information Transmission and Expression) では、第3の機能表現として2項関係を用いる。2項関係とは2つのオブジェクトの関係情報であり、ここでは配列と機能との関係、立体構造と機能との関係、ネットワークと機能との関係、分子機能と細胞機能との関係、といったあらゆる機能を含めて考える。機能情報はオントロジーで規定された語彙で表現するが、1番目のやり方ように機能を配列の属性とみなすのではなく、2項関係を構成するオブジェクトとみなす点が新しい。この表現法により、関係の集合からコンピュータ処理で演繹することが可能となる。 ゲノムの全塩基配列が決定された結果として、世界中で各生物種での個別研究が進み、多くの遺伝子の機能が続々と解明されている。しかし、継続的な遺伝子機能アノテーションを誰が行うかは、実は大きな問題となっている。GenBank等に登録されたデータは配列決定をした著者しか変更できないため、酵母等研究コミュニティでデータベースを維持している場合を除き、ほとんどの生物種では、新しい機能情報はPubMedの中に埋もれるだけで、共有できる知識としてのコンピュータ化は全くなされていない。本計画では、このような現状に対処し、ゲノムの機能情報を提供する国際的な基盤データベースを確立し、機能情報における我が国の知的所有権と、それに基づく機能解読技術力の優位性を確保することを目的とする。 |
関連リンク | BRITEホームページ[外部リンク] |
研究課題名 | シグナルオントロジーとバイオタームバンクの開発 |
---|---|
代表研究者 (氏名・所属) |
高木 利久 (東京大学大学院新領域創成科学研究科 教授) |
概要 | 基本構想 1-1 ゲノムサイエンスにおけるオントロジー開発の必要性 オントロジーは、データと解析技術の効果的な利用環境を整えるための情報技術である。オントロジーは、対象とする分野のデ-タの特徴を抽出し(概念化)、概念の性質や互いの関係を明示的に定義したものである。オントロジーを定義することにより、分野の知識と解析技術を明確に分離することができ、両者を独立に再利用することが容易となる。 ゲノムサイエンスにおけるオントロジーの開発は、これまでモデル生物ごとに蓄積されてきた知識を洗い直し、生物の共通の知識を抽出し(概念化)、その知識の性質と関係を記述することで、生命科学の概念の仕様書をつくることである。生命科学における研究分野は多岐に渡っているので、各々の研究分野に応じた複数のオントロジーが必要とされるが、我々は本プロジェクトにおいて、シグナル伝達系と、生体科学の用語、を対象としたオントロジーを開発する。 1-2 シグナル伝達系のオントロジーとデータベース ゲノムサイエンスにおけるパスウェイ研究の重要性は、解析されたモデル生物の遺伝子総数が予想より少なかった事実から、強調されるようになった。現在のところ、ヒトの遺伝子総数は約4万個で、線虫の2倍、ショウジョウバエの3倍であると見積もられている。この結果は、生物進化における機能獲得については、新規の遺伝子の創出よりもむしろ、分子間相互作用の多様性の創出が本質的であることを示唆している。また産業応用の視点からもパスウェイ研究は注目されている。微生物のパスウェイデータベースは、微生物を利用した化合物生産のための情報源として、また工業廃棄物の環境における分解反応の情報源として、利用価値が高い。また医学・薬学においては、より作用範囲が限定された副作用の少ない治療法の開発のために、生体内パスウェイ情報に基づく、生体反応を総合的に考慮した新しい創薬が必要、との認識が高まっている。パスウェイ研究において、代謝系については、シソーラス、オントロジー、データベース、情報解析技術の開発が活発に進められている。一方シグナル伝達系については、研究の進行が遅れている。シグナル伝達系のオントロジーの開発は、この現状を打開し、シグナル伝達系の情報学的研究の推進に貢献すると考えられる。シグナル伝達系のオントロジーが完成すれば、世界で初めての成果となる。 平行して、シグナル伝達系のデータベース開発を行う。データベースはオントロジーのインスタンスあるいは外延である。オントロジーによって定義付けられた概念は、実在する分子の性質や関係にインスタン化されることで、初めて解析技術を適用し得る。インスタン化は、シグナル伝達系を構成する全分子を対象としなくてはならないので、開発には多大な労力が掛かる。小規模の研究室や営利団体では達成し難い研究課題であり、本プロジェクトのような大規模な公的資金で実施されることが望ましい。前述のとおりシグナル伝達系のデータベースも開発が遅れており、その完成は、全世界のゲノム研究と産業界両方から期待が寄せられている。 我々はシグナル伝達系のオントロジーおよびデータベース開発において、この系を表現する新しいモデルを提案している。これまでは、この系を「シグナル」という何らかの作用が伝搬するというモデルが使われていたが、シグナル伝達系パスウェイ研究の遅延は、このモデルの限界にあると考えられる。我々は、生物種間で共通な反応のグループを単位としたモデルを提案し、すでに一部を開発して一般に公開している(SIGNAL-ONTOLOGY)。本プロジェクトでは、SIGNAL-ONTOLOGYの開発をさらに進めるとともに、SIGNAL-ONTOLOGYの外延となるシグナル伝達のデータベースを開発する。 1-3 生命科学の用語のオントロジーとデータベース BioTerm Bankが対象とする分子の名称は、Gene Ontologyが対象とする分子の機能に比較すると、かなりシンプルである。しかしシンプルであるが故に一般の研究機関では研究対象として設定し難く、必要性の高さにも関わらず、未だ世界中で利用できる形で公開されているものはない。したがってBioTerm Bankの開発は、本プロジェクトのように大規模な公的資金を利用したデータベース開発に相応しい課題である。またゲノム研究を支える基盤データベースとして、これまで少なかった日本からの貢献を増やし、ゲノムサイエンスにおける日本の国際地位の向上にも寄与すると考えられる。BioTerm Bankはデータベースの統合だけでなく、生物学のテキストマイニングの知識基盤としても役立つ。 |
関連リンク | オントロジープロジェクトのホームページ |
研究課題名 | ゲノム生物学バックボーンデータベースの構築提供 |
---|---|
代表研究者 (氏名・所属) |
菅原 秀明 (国立遺伝学研究所 教授) |
概要 | 基本構想 1)背景 ・2000年にゲノムデータを含む国際塩基配列データの規模が15万生物種、1000万件、100億塩基を超え、キーワード検索あるいは相同性検索を加えても、必要なデータを過不足なく抽出することが困難になってきた。・蛋白質を代表とする生体高分子の立体構造や機能のデータベースや生体反応の経路に関するデータベースなど、幅広い生命現象の要素データベースも急速に拡大中である。 ・さらに、マイクロアレー/DNAチップ、TOFなどの新しい実験手法が生み出す膨大な実験データのデータベース化も個々に進んでいる。 ・生命現象を理解するためにはこれらの多種多様なデータベースを柔軟に統合利用することが必要である。なぜならば、個々の遺伝子とそれに対応する蛋白質の構造と一般的機能が分かっても、遺伝子ネットワークの構造と時間的動きを理解して始めて声明現象を理解できるからである。 ・統合利用を可能にするためには、相互運用性を実現するための情報技術、意味論上の整合性を実現するためのオントロジーならびに、GIGO効果をもたらさないために要素データベースの品質管理が重要である。・また、統合したデータから情報と知識をする抽出するために、いわゆるデータマイニングの技術開発が必要である。・それに加えて、検索ならびにマイニングの結果の優れた可視化が必要である。特に、時間的空間的要素(4次元(3D+T))を理解できるインターフェースが必要である。 ・新世代のデータベースは、静的にデータを蓄積したものにとどまらない。モデルをもとに、実験データの自己組織化機能と、生命現象のシミュレーション結果を含む自己増殖機能を備えたダイナミックなシステムとなる。 2)研究開発のねらい・着眼点、コンセプト、将来展望 ・「高品位配列データベースシステム」と「高品位配列データベース」を研究開発し、ゲノム科学研究のバックボーンを提供する。前者は、ゲノム科学研究グループで利用可能とし、後者はインターネットから広く一般に利用可能とする。 ・生命現象の時間軸からの解析を可能とする「四次元データベース」を研究開発し、世代を超えた生命情報の伝達および個体の発生から死までの生命情報の発現にかかわるシミュレーションを可能とするプラットフォームを提供する。 |
関連リンク | Backbone Databases in Genomicsホームページ[外部リンク] DDBJホームページ[外部リンク] |
研究課題名 | 蛋白質立体構造データベースの高度化 |
---|---|
代表研究者 (氏名・所属) |
中村 春木 (大阪大学蛋白質研究所、教授) |
概要 | 1.背景 2.蛋白質立体構造データベースの現状 日本では、大阪大学蛋白質研究所・立体構造データ解析研究系が、米国PDBデータベースのアジア・オセアニア地区での公式のアーカイブとして、RCSBと協力してデータベース管理・運営を行っており、特に2000年7月からは、日本国内はもとよりアジア・オセアニア地区の構造生物学者が解析した立体構造情報の新規登録作業を開始し、2001年2月末までに179件の新規データの登録作業を行った。しかし、その運営体制はRCSBに比べるとたいへん貧弱であり、2名の専門編集委員が作業を行っており、その運営資金は、科学技術振興事業団の計算科学技術活用型特定研究開発推進事業「蛋白質立体構造データベースの構築と利用システムの開発」研究費(平成10年後期-平成13年後期)にのみ依存している。ところで、NMRによって決定された立体構造もPDBには登録されているが、単なる分子の構造以外にも、各蛋白質中で同定された炭素、窒素、水素の各スピンの化学シフト情報が、BioMagResBank (BMRB)というデータベースに集積されている。これは、Wisconsin大学のJohn L. Markleyによって1996年からスタートしたものである。このデータベースに対しては、日本国内で対応し国際協力を行っている所が未だにないが、やはり大阪大学蛋白質研究所でその対応を進めている所である。 3.研究開発「蛋白質立体構造データベースの高度化」の意義 |
関連リンク | PDBjホームページ[外部リンク] |