別紙1

「アミノ酸変化を伴うDNA多型データベース」事後評価結果


1. 課題名
アミノ酸変化を伴うDNA多型データベース
(公開名:蛋白質多型データベース)
(URL http://dbprop.nirs.go.jp/
2. 開発・運用責任者
独立行政法人 放射線医学総合研究所
 開発責任者 齋藤 俊行(遺伝子発現ネットワーク研究グループ チームリーダー)
 運用責任者 齋藤 俊行(同上)
3. 課題概要
 蛋白質多型データベースdbProPは、現在も蓄積が続く大量のヒト転写配列(mRNAおよびEST)のクラスタ化とアライメントから、アミノ酸変化SNPと蛋白質コード領域内に連結変化があるalternative splicing variant(ASV)を独自に推定し、さらに米国NCBI(National Center for Biotechnology Information)dbSNPデータからアミノ酸変化SNPを独自抽出し繰り込んでいる。
 多型の検索は多様な条件で実行できるので、特定の遺伝子産物・特定の疾病・特定のゲノム領域など様々な検索要件をもつユーザに対応するデータベースとなっている。
 また、多型推定のユーザ自身による妥当性評価用に、当該配列クラスタのアライメント状態提示が可能である。さらに多型が及ぼす蛋白質機能への影響評価のために、アミノ酸変化部位と蛋白質モチーフとの位置関係を模式的に提示する。
 支援機能としてアミノ酸変化SNPの検出用PCRプライマーが、ゲノム上およびmRNA上に自動設計されてユーザへ提供され、ASV特異的な検出用プライマーも同様に自動設計される。ユーザ独自のパラメータを指定してプライマー設計を指示することもできる。これらwebアプリケーションとして提供される研究支援機能は、参照用データベースと同時に研究支援ツールとして使われることを想定した開発コンセプトに基づくものである。

<データ項目とデータ量>
独自推定アミノ酸変化SNP情報:141,439件
dbSNPから推定したアミノ酸変化SNP情報:46,954件
合計(独自推定SNPとdbSNP由来SNPとの重複6,193件削除後):182,200件
ASV(alternative splicing variant):61,481件(該当遺伝子数13,548)
(データ件数は平成16年4月現在)

<開発期間> 平成12年4月~平成15年3月
4. アクセス状況
 公開時(平成15年4月)~平成16年3月 : 4,165件
5. 外部発表
*開発中
年 度 件 数 備 考
平成14年度 3件 日本生化学会ランチョンセミナー他
*開発終了後
年 度 件 数 備 考
平成15年度 2件 日本法医学会総会他
6. 事後評価結果
6-1 当初計画の達成度
 アミノ酸変化を伴う多型としてSNPとASVを独自に推定し、さらに米国NCBIのdbSNPデータからアミノ酸変化SNPを独自抽出し、それら3種類の多型情報をデータベース化している。なお、ASVおよびdbSNPデータは当初計画では対象ではなかったが、より網羅度の高い蛋白質多型データベース実現のために追加された。また、多型検出用プライマーの自動設計機能を備え、参照用データベースと同時に研究支援ツールとしても使える。当初計画の2倍以上の多型候補を収録し、「蛋白質の構造変化と表現型(疾病)との関係の調査作業を支援・加速するツールとしてのデータベースの整備」という当初計画は達成された。
6-2 データベースの評価
 限られた遺伝子だけに関する格納多型データの単なる提示ではなく、全遺伝子を対象とする多型データベースであり、推定された多型候補の検出用PCRプライマーの自動設計機能や蛋白質モチーフとの関連づけ等の研究支援webツールとしての機能も併せ持ち、幅広いユーザ層にアピールできる。検索条件入力画面以降の各種情報提示画面において、より直感的なユーザインタフェースへの改良が望まれる箇所もあるが、多彩な機能を搭載しユーザの利便性が図られている。
 疾患関連蛋白質解析やゲノム関連プロジェクトが多数進められており、それらの研究の基礎になる重要な情報を提供できるものである。
6-3 データベース化終了後の公開運用体制及び運用状況
 公開用サーバは新規に研究所のサーバ室に設置され、平成15年度はデータ更新1回を含め、格別な支障もなく、運用責任者を中心に公開・運用された。データ更新によって、公開後1年でアミノ酸変化SNP数は独自推定分では1.4倍、 dbSNPからの推定分では2.3倍、対象遺伝子を全遺伝子に拡張したASVでは約100倍と収録データは著しく増加した。データ更新頻度の高い分野であるので、データベースの鮮度を保つためには処理の自動化を進めるなどして、より更新頻度を上げて運用されることを期待する。
 アクセス数が少なめであるが、疾患関連蛋白質解析やゲノム関連プロジェクトが多数進められており、潜在的利用者は多いと見込まれるので積極的に広報すべきである。
6-4 運用の今後の展開
 元データである転写配列情報の増大に伴い、適宜再クラスタリングによるデータ更新を実施する必要がある。予算的・労力的制約もあろうが、更新頻度を高める運用が望まれる。また現在のASV格納データは、SNPが指摘されている遺伝子mRNAについてのみ整備されているが、今後はSNPが見つからない遺伝子に関してもASV情報を整備し公開することが計画されており、この方向での蛋白質多様性データの拡充も期待される。
 ヨーロッパ・バイオインフォマティクス研究所(EMBL-EBI)のENSEMBLプロジェクトとの協力が検討されており、実現すればこのデータベースの利便性と利用の拡大に大変有益である。また、ユーザにとってセキュリティ上の心配が少なく、データの二次加工も容易な「データベースのインハウス使用」も検討課題に上げており、より多くのユーザに使ってもらえるよう工夫を進めるべきである。
6-5 その他
 開発・運用責任者により、本データベースにおける独自推定SNP候補からランダムに選び出した52個について日本人集団25名の検出試験を行ったところ、6個のSNPが実際に検出された。検体が少ない面はあるが、独自推定SNP候補が実際に確認されており、dbSNPに存在しない大量のアミノ酸変化SNPがこのデータベースで指摘されていることは大変興味深いし、今後のデータベースの利用者による検出実験も期待される。
7. 総合評価
 当初の計画を超える数のSNPデータが収載されており、新たにASVデータも追加されるとともに検索ツールや研究支援ツールなども盛り込まれ、全体としては使いやすくなっている。データ更新頻度の高い分野であるので、データベースの鮮度を保つためには、予算・人員の制約もあろうが、処理の自動化を進めるなどして、より更新頻度を上げて運用されることを期待する。「転写配列のクラスタ解析からSNPを推定する」活動としては、米国の国立癌研究所にもその事例はあるが、本データベースはアミノ酸変化に特化したことで独自であり、独自のSNPを推定しており、研究者にとっては良い情報源となり得るデータベースが構築されたと評価できる。
 疾患関連蛋白質解析やゲノム関連プロジェクトが多数進められており、潜在的利用者は多いと見込まれる。所内での遺伝子研究状況を研究所内外にさらにアピールするとともに、本データベースが広く活用されるように積極的な広報に務められたい。

■ 戻る ■


This page updated on August 27, 2004

Copyright©2004 Japan Science and Technology Agency.