事後評価報告書

バイオインフォマティクス推進事業 平成18年度終了研究開発課題 事後評価報告書

バイオインフォマティクス推進センター 統括
勝木元也

1.研究開発の概要

当事業は、情報科学と生物科学との融合したアプローチにより多様な生物情報から生物現象の原理や法則を発見し体系化することを目指す研究開発課題を募集し、採択された課題の研究開発を推進することを目的の一つとしている。得られた成果は広く利用できるよう公開し、これらの成果がバイオインフォマティクスの発展および新しい情報生物学創造のインセンティブとして機能し、これを基盤として新たな生物科学が樹立されるよう支援を行っている。
平成13年度は以下枠内の2つの分野について7課題が採択された。また平成16年度にはこの中から継続課題として4課題が採択され、2年間の継続期間の中で研究開発を進めてきた。

1)情報生物科学に関する創造的な研究開発
実際の生物研究から発生した情報源(データベース、実験、文献)に由来するデータを解析し、生物科学的発見にむすびつく知識発見、知識表現にかかわる方法論および技術の研究開発。

2)情報科学と生物科学との融合型アプローチによる研究開発
新規に開発された実験手法による新しいタイプのデータの発生、既存のデータ種の増大、多様化を対象とした、データの採取から蓄積、解析に至る一連の情報処理技術の開発。生物科学者と情報科学者とが協力し合い、データ生産と協調しつつ、情報的観点から実験デザインし、結果をフィードバックすることにより、目標とする事象に対してダイナミックなアプローチを行う研究開発。

今回この4件の課題が継続研究開発期間を終了したことにともない事後評価を行ったのでここに報告する。

2.研究開発成果

伊藤啓博士のチームは、ショウジョウバエ脳全体の回路図を作成してコンピュータ上での動作再現を行うことを究極の目標とし、視覚・嗅覚・味覚・聴覚の4つの感覚系について、感覚細胞から順にステップを追って神経回路の網羅的同定を進めてきた。その結果、従来注目されていたのとは異なる場所に、感覚情報が収斂していることが明らかになった。

伊藤隆司博士のチームは、実験手法・計測技術と関連するバイオインフォマティクス技術を連携しながら研究し、独自の技術群を開発した。トランスクリプトーム計測に関しては、定量値を解釈に活用するシステムART/EXを開発した。ART/EXを用いることで、トランスクリプトームデータ全体をそのまま解析して、それを「遺伝子リスト」から構造を持った「機能表現リスト」へと変換することが可能になった。これによりトランスクリプトームの特徴抽出が極めて容易になり、また遺伝子選択に伴う情報損失の回避を可能にした。

森下真一博士のチームは、出芽酵母遺伝子破壊株のイメージ解析ソフトウェアを完成させ、4,718の非必須遺伝子破壊株中で2,000株以上が野生株に比べ形態が異常に変異していることを見出した。さらに形態の特徴と、GO(Gene Ontology)による遺伝子機能グループの情報をあわせて、遺伝子の機能を予測(マイニング)することに成功した。またヘテロ二倍体遺伝子破壊株を用いて必須遺伝子破壊株からも形態パラメータを取得する作業を着実に進めた。

矢田哲士博士のチームは、ヒトゲノムにおけるタンパク質遺伝子、偽遺伝子、機能性RNA遺伝子を情報科学的な手法で発見することを目的とし、各々の課題に関する遺伝子発見プログラムを新たに開発して、ベンチマークデータを用いてそれらの性能を評価した。タンパク質遺伝子については、近年同定されたおよそ 1,500個の新規遺伝子のうち、チームが作成したプロトコルは約40%を予測していた。偽遺伝子の発見についても、遺伝子の形成過程に関する新しい知見を見つけることができ、一定の成果が得られた。RNA遺伝子の発見では、有望な要素技術の幾つかを確立することに成功したが、ゲノム規模の探索には課題が残った。

3.各課題の事後評価結果

○情報科学と生物科学との融合型アプローチによる研究開発

(1) ショウジョウバエ脳神経回路の徹底解析にもとづく感覚情報処理モデルの構築(PDF形式 249KB)
代表研究者 : 伊藤 啓  東京大学分子細胞生物学研究所 助教授
(2) 絶対定量オーミックスからの知識発見(PDF形式 233KB)
代表研究者 : 伊藤 隆司 東京大学大学院新領域創成科学研究科 教授
(3) 遺伝子破壊株イメージ・マイニング(PDF形式  213KB)
代表研究者 : 森下 真一 東京大学大学院新領域創成科学研究科 教授

○情報生物科学に関する創造的な研究開発

(1) ヒトゲノムにおける広義の遺伝子発見研究(PDF形式 229KB)
代表研究者 : 矢田 哲士 京都大学大学院情報学研究科 助教授
(参考)
1)公開されている成果プログラムおよびデータベース等
(代表研究者:伊藤隆司)
・Enhanced Annotator for Saccharomyces Transcriptome (EAST)
http://itolab.cb.k.u-tokyo.ac.jp/BIRD/GATC-PCR/
出芽酵母トランスクリプトームデータの解釈を支援するシステム。今回は、ARTをクラスタリングなどの既存手法と連携させて、より複雑な解析を行う機能や、SAF/EPFツールなどを追加開発した。またシステムで用いるアノテーションデータベースの充実を図っている。
・SDSSPrimer
http://itolab.cb.k.u-tokyo.ac.jp/GATC/SDSSPrimer.html
独自のSDSSアルゴリズムに基づいて高性能のPCRプライマーの設計を行なうプログラム。GATC-PCRやRACEなど特異性が1本のプライマーに依存するアプリケーションで特に有効。
(代表研究者:森下真一)
・Saccharomyces Cerevisiae Morphological Database(SCMD)
http://yeast.gi.k.u-tokyo.ac.jp/
出芽酵母をモデル生物として、非必須遺伝子の破壊が形態におよぼす影響を定量的に計測した情報を公開したデータベースサーバー。4,784 個の非必須遺伝子破壊株の細胞壁・核・アクチンを染色し、同じ角度から顕微鏡画像を撮影し、細胞壁の形態変化、核分裂の異常、アクチン分布の異常を計測。 91,271枚の顕微鏡画像から、1,899,247個の細胞を抽出しているため、実験誤差の影響を抑え、有意に変化している形態パラメータを同定できる。非必須遺伝子の破壊がもたらす「変異体」の概念を確立することに成功している。
・CalMorph
http://scmd.gi.k.u-tokyo.ac.jp/datamine/calmorph/
出芽酵母をモデル生物として、非必須遺伝子の破壊が形態におよぼす影響を定量的に計測するソフトウエア。SCMDの画像処理に使われているプログラムを、個々の計算機で利用可能にした。
(代表研究者:矢田哲士)
・HAL(Human genome Annotation Library)
http://hal.genome.ist.i.kyoto-u.ac.jp/
ヒトゲノムに潜む未知のタンパク質遺伝子の情報を提供するデータベースである。HALは、NCBIが提供する最新のヒトゲノムデータに合わせて更新され、タンパク質遺伝子のゲノム上での位置や構造に加え、GC含量、CpG アイランド、反復配列、マーカーなどの情報がグラフィカルに表示される。また、それらの一次情報へのリンクも豊富に用意され、さらに、NCBIや Sanger研究所で行なわれている遺伝子発見プロジェクトのようすを併せてブラウズすることができる。HALは、アノテーションデータのGFFファイルを用意すれば、簡単にその情報を取り込むことができ、今後のアノテーション情報の増加やユーザ独自のアノテーション情報の追加に容易に対応することができる。
(代表研究者:矢田哲士 共同研究者:後藤修(京都大学))
・Aln
http://www.genome.ist.i.kyoto-u.ac.jp/~aln_user/ALN/top.html
2つのタンパク質アミノ酸配列、核酸塩基配列の間の大域的、半大域的、または局所的な最良アラインメントを求めるソフトウェア。塩基配列とアミノ酸配列の間のアラインメントも可能。片方がゲノムDNA配列の場合、スプライシングを伴うアラインメントを行う。結果として、ゲノム上の翻訳エキソンを予測することが可能となる。
(代表研究者:矢田哲士 共同研究者:十時泰(理化学研究所))
・DIGIT
http://digit.gsc.riken.go.jp
複数の遺伝子発見プログラムの解析結果を組み合わせて遺伝子を発見するソフトウェア。ひとつの遺伝子発見プログラムが検出したエキソンより、幾つかの遺伝子発見プログラムが同時に検出したエキソンを尤もらしいと考える。DIGITのモデルパラメータは、ヒトのab initio遺伝子発見プログラムを組み合わせるために最適化されている。DIGITは、感度を犠牲にすることなく、偽陽性を大きく低減することに成功している。
(代表研究者:矢田哲士 共同研究者:野口英樹(東京大学))
・PHINAL
http://phinal.gsc.riken.go.jp
ゲノム比較による遺伝子発見プログラムPhinal(PHase-INdexed ALignment) は、まず、ヒトゲノムとマウスゲノムのシンテニー領域の配列をアラインメントし、続いて、アラインメントで浮かび上がった保存領域から遺伝子の領域を取り出す。アラインメントでは、コドンの3 文字目に置換が蓄積されやすいことを利用し、できるだけオルソロガスなコード領域がアラインされるように工夫している。また、遺伝子領域の取り出しでは、新しい指標として、コード領域のアラインメントと非コード領域のアラインメントに観察されるギャップの入り方の違いに着目している。< /dd>
(代表研究者:矢田哲士 共同研究者:榊原康文(慶應義塾大学))
・PSTAG
http://pstag.dna.bio.keio.ac.jp/
PSTAG(Pair Stochastic Tree Adjoining Grammars)は,2次構造が既知のRNA配列が与えられたときに、2次構造が決定されていないRNA配列をこの既知の構造にアライメントすることにより2次構造を予測するプログラム。RNAの機能予測とゲノム上での発見においては、その2次構造とともにシュードノット構造を考慮することが正確な予測には不可欠となる。木接合文法と呼ばれる形式文法をペア確率文法に拡張することにより、シュードノット構造も考慮した構造的アライメントを行うことができる。
2)外部発表件数*
国内 国外
論文** 0 48 48
招待・口頭講演 18 14 32
ポスター発表 39 24 63
合計 57 86 143

*:件数は、各代表研究者が研究開発終了報告書に記したデータを採用した。
**:論文は原著論文のみで印刷中のものは含むが、投稿中のものは含まない。