生命科学上の非構造化データの統合マイニング

代表研究者：　馬見塚　拓　（京都大学化学研究所　教授）

①目的

生命科学では、必ずしも表（構造化データ）になり得ないデータが増えつつあります。具体的には、遺伝子配列や遺伝子制御ネットワークといったものが挙げられます。このような非構造化データから効率的に知識発見を行う手法は必要性が高いにも関わらず未だ確立していません。一方、情報科学の観点からは、データから内在する規則やパタンを発見するデータマイニングと呼ばれる技術が発展していますが、非構造化データ、特に複数の非構造化データに対する技術は未だ未整備です。そこで本研究では、生命科学の複数の非構造化データからの効率的なデータマイニング手法を確立・適用し、生命科学・情報科学両者への貢献を目指します。

②研究概要

例を用いて研究概要を説明します。生体内の低分子化合物の化学反応はタンパク質に触媒され推進します。つまりタンパク質と低分子化合物の結合が生命現象において重要です。このような低分子化合物（特に薬剤）とタンパク質（薬剤に対してターゲットと呼ばれます）の結合データは豊富に蓄積されてきています。低分子化合物は化学構造式でも表現可能であり必ずしも表として表現出来ない非構造化データです。同様にタンパク質のアミノ酸配列も非構造化データです。このような非構造化データの組み合わせから、薬剤およびタンパク質のどのような特徴が結合に重要かをデータから効率的に発見する手法を構築します。

③研究概要図

④成果

研究概要に用いた低分子化合物とタンパク質の結合データを例として成果を説明します。本研究課題では、低分子化合物の化学構造式をグラフ、またタンパク質のアミノ酸配列を文字列とみなすことができます。さらに、結合データはグラフと文字列のペアデータとなり、それらから結合に重要な部分を発見することができます。具体的には、結合に重要な部分化学構造と部分アミノ酸配列（モチーフと呼ばれます）を効率的に見つけ出すことが出来ます。特に、薬剤とターゲットのペアデータからは、薬効に重要な部分化学構造とターゲットのモチーフの組み合わせが自動的に得られることを意味し、これらはドラッグデザインの重要な手がかりとなり創薬効率化に繋がります。