バイオインフォマティクス推進センター事業 平成23年度終了の継続研究開発課題 事後評価報告書

バイオインフォマティクス推進センター事業 平成23年度終了の継続研究開発課題 事後評価報告書

バイオインフォマティクス推進センター 統括
勝木元也

1.研究開発の概要

本事業は、1)多彩な生命情報データベースが整備されることで利用が可能になる大量の情報源からの計算機処理による新たな知識発見、知識表現の方法・技術の開発(「情報生物科学に関わる創造的な研究開発」)および、2)情報技術と融合した新しい計測技法の開発により得られる新しいタイプの生命情報の処理技術やデータベースのプロトタイプ研究開発など、研究の発展に伴い発生する新規情報の有効活用に寄与する開発を推進するものである。

情報科学と生物科学との融合型アプローチによる研究開発および情報生物科学に関する創造的な研究開発の推進に当たり、平成18年度に研究開発課題を募集し、5課題を採択して研究開発を進めてきた。また平成21年度に終了した課題を対象として、極めて優れた成果が得られ、かつ発展の見込まれる課題から3課題が選択され、2年間継続して研究開発を実施した。今回この3課題が2年間の継続研究開発期間を終了したことに伴い、事後評価を行ったのでここに報告する。

2.研究開発成果の概要

黒川顕博士のチームは新型シーケンサーによるメタ16S rRNA解析において、より容易にサンプル間の相違を表現する事を可能とする新たな系統解析手法および可視化技術VITCOMICを開発した。また、得られた情報をもとに多変量解析技術を用いてヒト腸内細菌叢の分類体系である「Enterotype」という新たな概念を提唱した。さらに、Human Meta BodyMapでは、世界中に散在しているヒトメタゲノムデータを可能な限り集積し、メタデータを整理した上でシステムに格納するなど、興味深い結果を得た。

榊原康文博士のチームは次の成果を挙げた。(i) タンパク質化合物相互作用予測システムCOPICATにおいて、タンパク質を入力するとPubChemデータベースから網羅的に結合化合物を探索する機能と、化合物を入力するとRefSeqおよびEnsemblデータベースから網羅的にターゲットタンパク質を探索する機能が利用可能となった。(ii) 特にPubChemデータベースの探索機能では、従来の約120~140倍の高速化を実現することができた。(iii) ユーザが与える学習サンプルに対して高い識別性能(AUC値、Area Under the Curve)を示す特化型モデルを、モデルライブラリーから加えると予測精度が向上することを示した。(iv) 統計的回帰手法であるSVR(Support Vector Regression)を適用することにより2値識別では予測できなかった結合強度を予測することができるようになり、アンドロゲンレセプターの新規阻害剤の探索において高い精度を達成した。(v) アポトーシス抑制タンパク質Bcl-xLの機能を阻害する化合物incednineが相互作用する新しいタンパク質を同定して、機能的にターゲットタンパク質である可能性を示した。

清水謙多郎博士のチームは次の成果を挙げた。タンパク質の配列情報のみから機械学習SVM(Support Vector Machine)用い、糖鎖結合タンパク質を予測する手法で高い予測精度が得られた。また、粗視化分子動力学シミュレーションにより、タンパク質-リガンドの相互作用を解析する手法を開発し、実際のリガンド結合部位を予測するとともに、リガンド周辺の溶媒分子の動きから結合機序を解析することができた。さらに、タンパク質-リガンド複合体、タンパク質-糖鎖結合タンパク質のデータベースを構築し、構造が既知のタンパク質において、相互作用部位、相互作用の種類、単体・複合体の構造、他のデータベースへのリンク情報を提供した。

3.各課題の事後評価結果

(1)「メタゲノム統合解析システムの開発」 別添1
代表研究者:黒川 顕 東京工業大学大学院生命理工学研究科 教授
(2)「タンパク質化合物相互作用の網羅的予測手法とデータベースの開発」 別添2
代表研究者:榊原 康文 慶應義塾大学理工学部 教授
(3)「高精度タンパク質間相互作用予測システムの開発」 別添3
代表研究者:清水 謙多郎 東京大学大学院農学生命科学研究科 教授

4.総評

いずれの研究開発課題においても活発な研究活動が行われ、様々な生物情報から生命現象の予測や原理の解明に向けた新しい試みがなされた。その結果、様々なデータベースやツールなどが開発され、それら成果の多くは既に公開もしくは公開を予定されており、バイオインフォマティクス研究の進展に貢献した。

国際最先端研究として、新型シーケンサーを用いたメタゲノム基盤技術を確立し、また、創薬分野において大きな貢献が期待できるリード化合物や、標的タンパク質を予測できるシステムの開発など、特筆される成果が得られた。

事後評価対象の全ての研究開発課題において、継続研究開発の2年間で研究が躍進し、ライフサイエンス分野の情報基盤の整備やバイオインフォマティクス研究の進展に大きく資する十分な成果が得られた。


(参考)

(1)成果プログラムおよびデータベース等

(代表研究者:黒川 顕)
Human Meta BodyMap(VITCOMIC、Body-BLAST含む)
ヒトメタゲノム配列データに対する遺伝子構造予測結果の可視化機能、そのクラスタリング結果を人体模式図や代謝パスウェイにマッピング・可視化する機能、ゲノム配列既知の個別菌との配列類似関係を可視化する機能、立体構造解析支援機能を提供する。これらのビューア上でサンプル個体間の相違を比較解析することも可能となっている。また公開されているヒトメタゲノムプロジェクトのメタデータ検索、配列相同性検索Body-BLASTを実装している。
(H24年に公開予定)
(代表研究者:榊原 康文)
タンパク質化合物相互作用予測システム COPICAT
COPICATシステムは、タンパク質アミノ酸配列の部分配列の頻度情報および化合物構造における部分パスの頻度情報を組み合わせて多次元ベクトル化し、SVMを用いてそれらの相互作用を網羅的に予測するシステムである。PubChemデータベースから結合化合物を網羅的に探索する、化合物探索に特化したChemical BLASTの機能をあわせ持つ。
公開URL: http://copicat.dna.bio.keio.ac.jp/

(代表研究者:清水 謙多郎)
タンパク質-リガンド結合データベース
PDBに登録されたタンパク質-リガンド複合体構造に関して、単体のタンパク質から複合体、リガンドから複合体、複合体から単体のタンパク質とリガンドを、さまざまな付加条件で検索できるようにした汎用的なシステム。登録数は、1,683,940タンパク質-リガンドペア。今後は、収集したデータをもとにした分類、解析を行う予定である。
平成21年10月 公開 http://www.bi.a.u-tokyo.ac.jp/services/buddy/

糖鎖結合タンパク質データベース
PDBに登録されたタンパク質-糖鎖複合体構造に関して、配列・構造上の結合部位、アノテーション情報、機能分類、他のデータベースへのリンク、糖鎖結合部位に関する統計データなどを登録し、3D Viewerを用いて各複合体の立体構造を表示できるようにしている。登録しているタンパク質-糖鎖複合体構造は1,148で、現在のPDBのアノテーションにUniprotKBのアノテーションも加えてこの数になった。
タンパク質-リガンド結合データベース
PDBに登録されたタンパク質-リガンド複合体構造に関して、構造をOctreeで表現し、種々の条件で結合部位を効率的に検索できるようにしている。現在、個のデータセットを用いて、糖鎖結合部位予測、脂質結合部位予測、リガンド結合部位におけるdisorder解析などの研究を行っている。登録しているタンパク質-リガンド複合体構造は52,792。
未公開(平成24年3月までに公開予定)
タンパク質-リガンド結合部位予測プログラム
与えられたタンパク質の構造に対して、リガンドが結合する空間的位置を予測するプログラム。リガンド一般について予測する仕様であるが、現時、リガンドが既知の場合、さらに予測精度を向上させる手法を開発している。
糖鎖結合タンパク質予測プログラム
与えられたタンパク質が糖鎖と結合するかどうかを、アミノ酸配列情報のみから予測するプログラム。
公開URL: http://bolero.bi.a.u-tokyo.ac.jp:8201/Lectin-Predictor/

(2)外部発表件数(全課題分)*

     
国内 国外
論文 5 26 31
招待・基調講演 9 2 11
口頭発表 23 1 24
ポスター発表 30 5 35
合計 67 34 101

*:件数は、各代表研究者が研究開発報告書に記したデータを採用した。

(3)特許

国内1件

 発明の名称:タンパク質-化合物間相互作用予測方法
 発明者:榊原 康文、 長嶺 誠香
 出願番号:特願2008-542157 (出願日:2007/10/31)
    (PCT/JP2007/071236(出願日:2007/10/31)の国内移行)
 出願人:学校法人慶應義塾
 弊所整理番号:P1J100001106
 審査請求期限:2010/10/31

国際0件