2項関係に基づくゲノムと生命システムの機能解読

研究開発代表者名:金久 實(京都大学 化学研究所 教授)

基本構想

ヒトからバクテリアまで数多くの生物種において全ゲノム配列が決定され、21世紀の生命科学ではこのゲノムの情報を基盤に、細胞、個体、生態系といった異なるレベルでの生命現象の理解が進み、同時にゲノムから有用性を見いだし産業化を行う応用研究が活発化すると考えられる。これまでに決定されたゲノムの 配列情報は国際DNAデータベースDDBJ/EMBL/GenBankに登録され、誰でも自由に利用できる形になっている。しかしそれだけでは不十分であり、ゲノムに書かれた生命のはたらきや有用性を見いだすことを可能にするデータベースがなければならない。ゲノム情報科学におけるデータベース高度化の一貫として、本計画では新しいタイプの機能情報データベースBRITEを構築する。

機能情報のデータベース化については、様々なやり方がある。1つは配列データベースのアノテーションのように、言葉として記述することである。機能情報はただ利用者が読んで理解できればよいとするのなら別であるが、一般には生物種間の比較をしたり、誰がアノテートしても、また誰が読んでも同じ意味をもたせるために、語彙の標準化を行わなければならない。これは狭い意味でのオントロジーの問題である。たとえば、ショウジョウバエ、マウス、酵母のゲノムを中心としたGene Ontologyのグループでは、知識の共有のために基本概念と語彙の定義を行っている。

2つ目は我々がKEGG (Kyoto Encyclopedia of Genes and Genomes)[外部リンク]において提唱し実践しているやり方で、細胞レベルの生命システムのはたらきを分子間相互作用ネットワークの「かたち」として表現する。ゲノムの遺伝子の並びからタンパク質同士のつながり方を予測し、そこから例えばリジンを合成するはたらきがある、浸透圧変化に応答するシグナル伝達のはたらきがあると判定する。主観的な機能情報を客観的な形の情報に置き換えているところがKEGGの特色である。これは逆の言い方をすると、KEGGのネットワーク表現ができる機能情報とは、分子間ネットワークが解明されたものに限られるわけで、例えばこの遺伝子は細胞周期に関与しているらしいといった手がかり程度では、KEGGでは表現ができない。

本来、機能とは曖昧なものであり、大雑把な手がかりであっても有用性はあり得る。そこで本計画のBRITE(Biomolecular Relations in Information Transmission and Expression)では、第3の機能表現として2項関係を用いる。2項関係とは2つのオブジェクトの関係情報であり、ここでは配列と機能との関係、立体構造と機能との関係、ネットワークと機能との関係、分子機能と細胞機能との関係、といったあらゆる機能を含めて考える。機能情報はオントロジーで規定された語彙で表現するが、1番目のやり方のように機能を配列の属性とみなすのではなく、2項関係を構成するオブジェクトとみなす点が新しい。この表現法により、関係の集合からコンピュータ処理で演繹することが可能となる。

ゲノムの全塩基配列が決定された結果として、世界中で各生物種での個別研究が進み、多くの遺伝子の機能が続々と解明されている。しかし、継続的な遺伝子機能アノテーションを誰が行うかは、実は大きな問題となっている。GenBank等に登録されたデータは配列決定をした著者しか変更できないため、酵母等研究コミュニティでデータベースを維持している場合を除き、ほとんどの生物種では、新しい機能情報はPubMedの中に埋もれるだけで、共有できる知識としてのコンピュータ化は全くなされていない。本計画では、このような現状に対処し、ゲノムの機能情報を提供する国際的な基盤データベースを確立し、機能情 報における我が国の知的所有権と、それに基づく機能解読技術力の優位性を確保することを目的とする。