UCSCゲノムブラウザ チュートリアル

UCSCゲノムブラウザはゲノム解読がなされている 真核生物を対象として自動アノテーションを行い、その結果をデータベースとして公開している UCSCが進めているプロジェクトです。NCBI MapViewerのように ゲノムベースでその上にアノテーションされている遺伝子などの情報を閲覧すると共に、ホモロジー検索や 必要なデータのダウンロードなどの機能を提供しています。

UCSCゲノムブラウザでは、データの品質を高めるために人手を介する部分を極力減らす代わりに、 非常に多様な計算結果を提供しており、ユーザ側で複数のトラックを並べて表示したりしながら 情報の絞込みを行っていくような使い方に向いています。

用いているゲノム情報はNCBI, Ensemblと同じものですが、アノテーションされている情報は 独自に計算したものやNCBI, Ensemblの情報など多岐に渡っています。高速に自動アノテーションする ため、表示されている情報自身は新しいものが多くなっているのも一つの特徴です。

このチュートリアルでは、UCSCゲノムブラウザ(ヒトゲノム版)の使い方をGDNF遺伝子の探索を通して学びます。 用いている例はMapViewerミニコースに合わせてありますので、照らし合わせながら見ていくとNCBI MapViewerや Ensemblとの違いなどがよくわかると思います。

1. ヒト遺伝子GDNFをUCSCゲノムブラウザで探してみる

では、グリア細胞由来の神経栄養因子遺伝子GDNFを例にとってUCSCゲノムブラウザの使い方を見て行くことにしましょう。 GDNFは変異を起こすと、ヒルシュスプルング病の原因となると推測されている遺伝子です。

■1-1. ヒト遺伝子の情報をUCSCゲノムブラウザで探してみる

UCSCゲノムブラウザのトップページを開いてみる

まず、UCSCゲノムブラウザのトップページを開いてみましょう。 UCSCゲノムブラウザ(http://genome.ucsc.edu/)をクリックしてみてください。


上図のようなトップページが立ち上がります。この中で、ゲノム情報のブラウズは画面左上の "Genome Browser"と書かれた箇所をクリックした下図の画面を通して行います。


左から分類(哺乳類、脊椎動物など)、生物種名、ゲノムのバージョンを選択するようになっています。 例えばヒトゲノムの最新版を見る場合には、左から"Mammal", "Human", "Mar.2006" を選択します。


UCSCゲノムブラウザでの遺伝子検索

そして、その右横の検索窓に表示したい領域、あるいは検索キーを入力して"submit"ボタンをクリックします。

例えば、"chr3:1-100000"というように[染色体番号]:[start position]-[end position]と指定すると その範囲のゲノムブラウザが立ち上がります。

また、検索キーワードを入力すると検索結果が一覧表示され、その中から希望するものをクリックすることで 該当するゲノム領域へと移動します。

GDNFと検索窓に入力し、検索を実行してみましょう。


下図のようにUCSCゲノムブラウザで文字列検索を実施すると、UCSC遺伝子、RefSeq遺伝子、ヒト以外のRefSeq遺伝子 (をヒトゲノム上にマッピングしたもの)などにヒットすることが確認できます。


■1-2. ヒト遺伝子をUCSCゲノムブラウザ上で見る

遺伝子名に検索キーワードが含まれている遺伝子を探す

検索結果を順に見ていくと、UCSC遺伝子名にGDNFが含まれているものは 上からの7件で、いずれも5番染色体の37.86Mb付近にヒットしていることがわかります。 (Alternativeであることが示唆されます。)


目的の遺伝子をゲノムブラウザ上で見る

ここでは、一番目のGDNF遺伝子と書かれたデータを見ていくことにしましょう。クリックしてください。


UCSCゲノムブラウザでは基本的に、画面下部で表示するように設定したトラックが上のブラウザに表示されるように なっています。


画面上部には表示範囲を設定するコントローラーが配置されていて、上流/下流に移動したり拡大縮小したり することができます。

ビューアにはデフォルトの設定では、上から順にUCSCがアノテートした遺伝子(UCSC gene)、Refseq、GenBank内の mRNA, EST、multiz/phastconsを用いた比較ゲノム解析により保存されている領域、SNPs、Repeatの分布が表示されています。

ゲノムブラウザ内へのトラックの表示/非表示方法

UCSCゲノムブラウザ内で、ユーザが選択したトラックを表示/非表示させる方法を紹介します。

UCSCゲノムブラウザの下部には、表示するトラック選択のためのプルダウンメニューが 並んでいます。


メニューは大きく13カテゴリーに分けられており、それぞれの左前にある+アイコンを クリックするとそのカテゴリに含まれるトラックの一覧が表示されます。

例として、上から3つ目のカテゴリ"Genes and Gene Prediction tracks"(遺伝子および 予測遺伝子)に含まれるトラックを見ていくことにしましょう。"Genes and Gene Prediction tracks" の左にある+のアイコンをクリックして、トラックを表示させてください。


左上から横に順に、"UCSC Genes(UCSCが予測した遺伝子)", "Old UCSC Genes(前のversionのUCSC予測遺伝子)", "Alt Events(UCSC遺伝子でのAlternativeスプライス情報)","CCDS(NCBI, Ensembl, UCSC遺伝子で共通する遺伝子), "Refseq Genes(NCBI Refseqプロジェクトによるヒト遺伝子)"Other RefSeq(他生物種のRefSeq(をヒトゲノム上に マッピングしたもの))", "MGC Genes(Mammalian Gene Collectionによる遺伝子情報)", "ORFeome(The ORFeome Collaborationからサンプルが提供されている遺伝子)","Trans Map(他脊椎動物由来の cDNAをマッピングしたもの)", "Vega Genes(Sanger CentreのVegaプロジェクトでアノテートされた遺伝子)", "Ensembl Genes(Ensemblにより アノテートされた遺伝子)"などが選択できるようになっています。

各トラックを表示させたり、非表示にさせたりするには、そのトラックのプルダウンメニューから適切な モードを選択し、最後に"Refresh"ボタンを押す必要があります。


モードには5種類存在し、それぞれをRefSeqを使った例で説明します。

 hide
非表示
 dense
一行に圧縮表示

 squish
低い高さに圧縮して全件表示(名前の記述なし)

 pack
全件を名前入りで表示 但し重ならないものは一行にまとめて表示

 full
全件を名前入りで表示 各エントリにつき一行で表示

これらの5種類のモードから表示方法を選択します。

■1-3. 遺伝子周辺のゲノム配列をUCSCゲノムブラウザからダウンロードする

遺伝子周辺のゲノム配列をダウンロードする

次に、GDNF周辺のゲノム配列をダウンロードしてみましょう。そのためには、まずダウンロードしたい 遺伝子(転写産物)上をマウスでクリックして、以下のようなページへと移動してください。 この例はUCSC遺伝子の一番上に表示されている遺伝子をクリックしたものです。


このページは、クリックした遺伝子(転写産物)に関しての詳細を記述したもので、配列情報や他のデータベースへの リンク、疾患との関連解析の情報、発現解析情報、他生物種でのオーソログ遺伝子情報、由来となった配列情報 など様々な情報から成り立っています。

その中で"Sequence and Links to Tools and Databases"と書かれた箇所から"Genomic Sequence"と書かれた リンク(下図の赤四角の箇所)をクリックしてください。


下図に示したような遺伝子周辺のゲノム配列取得ページへと移動します。


このページでは、遺伝子周辺のゲノム配列を取得するに当たっての条件を設定することが可能です。

まず赤く囲んだ領域で、配列取得の範囲を設定します。6つのチェックボックスから成っていて、チェックされた 領域をダウンロードすることができます。上から順に遺伝子上流配列(何塩基上流までかをテキスト領域に記述します)、 5'UTRエクソン、CDS領域、3'UTRエクソン、イントロン、遺伝子下流配列 (何塩基下流までかをテキスト領域に記述します)です。

次に青く囲んだ領域で、データを一つのFASTA形式にまとめて出力するか、あるいは領域(CDSとかイントロンとか) ごとにマルチFASTAで出力するか(その際には各領域の上流下流に糊代を塩基数で設定できます)を選択します。 また、領域ごとに出力する際にUTRエクソンとCDSエクソンとも分けるかをチェックボックスで指定します。

最後に緑四角で囲んだ領域で出力フォーマットを一つ選択します。設定し終わったらsubmitをクリックしてみましょう。


遺伝子周辺のゲノム配列が取得できました。

■1-4. クローン関連情報を見る

クローン情報を表示する

続いてUCSCゲノムブラウザ上でこのゲノム領域に対応したクローン情報を表示してみましょう。まずは、Genome Browserの 画面まで戻ってください。


もう少し広範囲を見るために表示範囲を3倍ほど広げてみてください。それには画面上部のZoom Out から"x3"をクリックすることで実現できます。


では、この領域に位置するクローンを表示させて見ましょう。そのためには、下部の設定領域"Mapping and Sequencing Tracks" から適切なトラックを選択追加します。


"FISH Clones", "Assembly", "Bac END pairs"を"dense"に設定し、"refresh"ボタンを押して画面に反映させましょう。


上から順にFISHによりマッピングされたクローン情報、この領域のゲノムアセンブルに用いられた配列データの アクセッション番号、Bac-end情報からマッピングされたクローンが表示されています。(NCBI MapViewer にあったクローンの注文などの機能はありません。)

また、それぞれのクローンなどをクリックするとより詳細な情報が表示されます。


■1-5. 様々な転写産物データを表示する

様々な転写産物データを表示する

Genome Browserの画面まで戻ってください。

転写産物の表示は下部の"Genes and Gene Prediction Tracks"および"mRNA and EST Tracks"からの設定で 行います。


"Genes and Gene Prediction Tracks"については先ほど紹介しましたが、"mRNA and EST Tracks"からも、 mRNAやEST, UniGene, SAGEデータなど多様なデータが選択可能となっています。

例としてNscanとUnigene, Ensembl Geneを新たに表示させて見ましょう。


上から順に、UCSC遺伝子、RefSeq、Ensembl Gene、N-scan予測結果が表示されており、GDNF遺伝子の周辺を 見るといずれも似ているものの、UTRなどが微妙に異なった遺伝子構造を持っていることがわかります。

このようにUCSCゲノムブラウザでは、NCBIから提供されているUnigeneやEnsembl遺伝子 などの情報を表示することも可能ですが、 モデルメーカーのようなユーザがインタラクティブな操作で遺伝子候補を作成したりすることはできません。

■1-6. 他生物種の遺伝子データを表示する

他生物種の遺伝子データを表示する(その1)

さらにこの画面上に他生物種の遺伝子データを表示してみましょう。

そのためにはヒトの場合と同様に、"Genes and Gene Prediction Tracks"および"mRNA and EST Tracks"からの設定で 表示させたいトラックを選択します。


例として、"Other RefSeq"を表示させて見ましょう。


RefSeqの下にNon-Human RefSeq Genesが表示され、マウス、ラット、ゼブラフィッシュのRefSeqがマッピングされている ことが確認できます。ヒトのGDNFと比較すると、この3種のRefSeqの中ではラットのものが一番遺伝子構造としては 似ていそうなことがわかります。