ホーム > 研究支援 > 研究開発への支援 > 創造的な生物・情報知識融合型の研究開発 > 平成19年度採択新規研究開発課題(平成19年10月~平成22年9月) > 生命科学上の非構造化データの統合マイニング
生命科学上の非構造化データの統合マイニング
代表研究者: 馬見塚 拓 (京都大学化学研究所 教授)
①目的
生命科学では、必ずしも表(構造化データ)になり得ないデータが増えつつあります。具体的には、遺伝子配列や遺伝子制御ネットワークといったものが挙げられます。このような非構造化データから効率的に知識発見を行う手法は必要性が高いにも関わらず未だ確立していません。一方、情報科学の観点からは、データから内在する規則やパタンを発見するデータマイニングと呼ばれる技術が発展していますが、非構造化データ、特に複数の非構造化データに対する技術は未だ未整備です。そこで本研究では、生命科学の複数の非構造化データからの効率的なデータマイニング手法を確立・適用し、生命科学・情報科学両者への貢献を目指します。②研究概要
例を用いて研究概要を説明します。生体内の低分子化合物の化学反応はタンパク質に触媒され推進します。つまりタンパク質と低分子化合物の結合が生命現象において重要です。このような低分子化合物(特に薬剤)とタンパク質(薬剤に対してターゲットと呼ばれます)の結合データは豊富に蓄積されてきています。低分子化合物は化学構造式でも表現可能であり必ずしも表として表現出来ない非構造化データです。同様にタンパク質のアミノ酸配列も非構造化データです。このような非構造化データの組み合わせから、薬剤およびタンパク質のどのような特徴が結合に重要かをデータから効率的に発見する手法を構築します。③研究概要図
