![]() |
![]() |
Ensemblはゲノム解読された 真核生物を対象として自動アノテーションを行い、その結果をデータベースとして公開している EMBL-EBIとSanger Centreが共同で進めているプロジェクトです。NCBI MapViewerのように ゲノムベースでその上にアノテーションされている遺伝子などの情報を閲覧すると共に、ホモロジー検索や 必要なデータのダウンロードなどの機能を提供しています。
Ensemblから提供されている情報は、ゲノムに関してはNCBI, UCSCゲノムブラウザと同じですが、 アノテーションに関してはEnsembl独自のパイプラインによって予測されているものが多いため、 NCBI Mapviewerなどと情報が多少異なります。この予測パイプラインでは、タンパク質コード遺伝子を できる限り精度よく予測することに注力しているため、その予測精度は高いとされていますが、 ゲノム決定後提供されるまでに比較的長い時間がかかり、その他のブラウザと比べてゲノムのバージョンが 古い場合が見受けられますので、注意する必要があります。
このチュートリアルでは、Ensembl(ヒトゲノム版)の使い方をGDNF遺伝子の探索を通して学びます。 用いている例はMapViewerミニコースに合わせてありますので、照らし合わせながら見ていくとNCBI MapViewerと Ensemblの違いなどがよくわかると思います。
では、グリア細胞由来の神経栄養因子遺伝子GDNFを例にとってEnsemblの使い方を見て行くことにしましょう。 GDNFは変異を起こすと、ヒルシュスプルング病の原因となると推測されている遺伝子です。
■1-1. ヒト遺伝子の情報をEnsemblで探してみる
まず、Ensemblのトップページを開いてみましょう。 Ensembl(http://www.ensembl.org/)をクリックしてみてください。
上図のようなトップページが立ち上がります。この中で、ゲノム情報のブラウズは画面右側に並んでいる 生物種名をクリック、あるいはプルダウンメニューからの選択で行います。
Humanを選択してみてください。下図のようなヒトゲノムトップページが立ち上がります。
Ensemblでは必要な情報へのアクセスは基本的に、赤四角で囲まれた染色体をクリックし、 ゲノムの一部を拡大していってたどり着くか、あるいは青四角で囲まれた検索窓を利用してたどり着くか のどちらかになります。
検索窓では、[染色体番号]:[start position]..[end position](例えば12:10000..20000というように) と指定することで、特定染色体の一部をゲノムビューア上で見ることでもできれば、キーワード検索で目的の データにたどり着くこともできます。
GDNFと検索窓に入力し、検索を実行してみましょう。
下図のようにEnsemblで文字列検索を実施すると、遺伝子名やマーカー名といった要素名に検索キーワードが 含まれているかのみならず、各要素に関する説明文などテキスト として表されている情報に対する文字列検索が実施されます。
GDNFで検索すると全部で21件のヒットがあり、その中で遺伝子に関するものが13件あることがわかります。
■1-2. ヒト遺伝子をEnsemblのContigView上で見る
画面右側に表示されている21件のヒットを順に見ていくと、遺伝子名にGDNFが含まれているものは 1番目と2番目の2件しかないことがわかります。
NCBI MapViewerで同じような検索を実行した場合と比べて、検索件数が非常に少なくなっています。 これは、NCBIではヒトゲノム自身にいくつかのバージョンがあったり、遺伝子もEntrez Geneのように きっちり精査されたものから、そうでないものまで非常に多く含まれているのに対し、Ensemblでは統一的な プロトコルに従ってきっちりデータを精査しているため、情報が絞り込まれていることによるものです。
それでもEnsemblでGDNFとされた遺伝子が二つあります。一番目はVegaと呼ばれるSanger Centreにおいて 人の目を通してきっちりチェックした遺伝子、二番目がEnsemblプロトコルに従って予測された遺伝子です。 Vegaは人の目を通しているので信頼度は高いのですが、網羅性に乏しいという欠点があります。
ここでは、二番目のEnsembl proteinと書かれた方のGDNFを見ていくことにしましょう。名前の横の [Contig View]と書かれた箇所をクリックしてください。
Ensemblでは様々な"View"を通して情報が提供されていますが、ゲノムの一部分を拡大して表示している ページを"ContigView"と呼びます。
"ContigView"では、ゲノム上のある一定範囲に関する情報が図示化されています。上から3段目に ある"Detailed view"にユーザが指定した範囲の情報が主に表示されており、一つ上の"Overciew"では "Detailed view"の表示範囲を中心に1Mbを俯瞰できるように縮小表示されています。
さらに一番上では染色体上での位置が認識できるようにと、上から下に行くに従って拡大表示されるようになっています。
"Detailed View"で表示されている範囲は、"Overview", "chromosome"では、赤い四角で囲まれた領域として およその位置が分かるようになっています。
また、画面一番下には"Basepair view"があり(デフォルトでは表示されていません。"+"をクリックすることで 塩基レベルの情報が拡大表示されます。
さて今は、先ほど選択したGDNF遺伝子を"ContigView"上で見ているわけですが、何番染色体の どのあたりに位置しているでしょうか?
一番上部のイデオグラムからも分かるように、GDNFは5番染色体の短腕側に位置しています。
続いて、"Detailed view"を見ていくことにしましょう。
画面上部の緑四角で囲んだ領域では今現在の位置情報が表示されると共に、表示範囲の変更を行える コントローラになっています。今は5番染色体の37,837,038bpから37,887,038bpの50kbがDetailed viewで 表示されていることがわかります。これはGDNF遺伝子を選択したことにより、この遺伝子が含まれる適切な領域を Ensemblが自動的に選択したことによるものです。
表示させたい領域の染色体番号、左端の位置、右端の位置を入力後Refreshボタンを押すとその領域に 直接ジャンプします。また、その下の"<<5MB"ボタンを押すと表示範囲が左(上流)へ5Mb移動します。 同様に"<2MB"を押すと上流に2Mb, "<1MB"を押すと上流に1Mb,"<Window"を押すと上流に今画面に 表示されている範囲分(今の例では50Kb)移動します。右側の矢印に関しても同様に下流方向に移動します。
また、中央部のZoomと書かれた領域をクリックすると表示範囲の拡大、縮小が行えます。
その下の領域に、各種ゲノム上にアノテートされた情報が図示化されています。多少わかりにくいですが、 DNA(contigs)と書かれた右の青い部分に、このゲノム領域を構成する塩基配列が含まれるエントリの アクセッション番号が書かれ、その下にタイリングパスを構成するクローン名が書かれています。
そしてその上に+鎖にアノテートされた遺伝子情報が表示されます。(今は何も表示されていません) その下に−鎖にアノテートされた遺伝子情報が表示されます。
ですので、GDNFは−鎖の37.85〜37.87Mb付近にアノテートされていることが確認できます。GDNFと書かれた データが何種類か微妙に異なって表示されていますが、これは黄土色によるものがEnsembl Gene、青色によるものが 先ほど説明したVega geneで、Ensembl GeneではAlternativeな転写産物を区別して表現しているために このように複数見えていることになります。
■1-3. 遺伝子周辺のゲノム配列をEnsemblからダウンロードする
次に、GDNF周辺のゲノム配列をダウンロードしてみましょう。そのためには、まずダウンロードしたい 遺伝子(転写産物)上をマウスでクリックして、以下のようなメニューを表示させてください。
このメニューの下から3番目にある、"Export cDNA"をクリックしてください。
すると、以下のようなExportViewと呼ばれる配列をFASTA形式でダウンロードするための設定画面に移ります。
設定画面では、ダウンロードしたい配列の種類をゲノム、cDNA(デフォルト)、コード領域配列、アミノ酸配列、 5'UTR、3'UTRから複数選ぶことができ、出力形式もHTML、Text、テキストの圧縮から選ぶことができるようになっています。
GDNF遺伝子を含むゲノム配列(イントロンを含む)をダウロードするためにはGenomicを選択し、"Continue"ボタンを クリックしてください。
Resultsとして結果が得られます。
■1-4. ContigView上でクローン関連情報を見る
続いてContigView上でこのゲノム領域に対応したクローン情報を表示してみましょう。まずは、ContigViewの 画面まで戻ってください。
もう少し広範囲を見るために二段階ほど表示範囲を広げてみてください。それにはZoomの+ボタンを二回 クリックするか、今表示されているレベルの二つとなりのボタンをクリックするかで実現できます。
すると、画面の中央部から37.8Mb付近より上流側(青四角で囲んだ部分)と下流側(赤四角で囲んだ部分) とで異なったクローン/コンティグからこの付近のゲノム領域は成り立っていることがわかります。
上流側はRP11-302I6で、下流側はCTD-2194L12というクローンです。このクローンの上をマウスでクリックして 見てください。
長さやStatus(シークエンシングが終了とかドラフトとか)などの情報が表示されます。(NCBI MapViewer にあったクローンの注文などの機能はありません。)
■1-5. ContigView上に様々な転写産物データを表示する
ContigView内のDetailed viewをもう一度見てください。画面上部にプルダウンメニューがあります。
このプルダウンメニューからDetailed viewに表示したい情報をコントロールすることができます。一番左の"Features" をクリックしてみてください。
SNPからCpGアイランド情報、遺伝子、転写産物情報からDNAチップのプローブ情報に至るまで、 様々な情報が表示可能なことがわかると思います。表示したい場合には、左横のチェックボックスをクリックしてみてください。
では例としてGenscanとUnigeneに新たにチェックを入れてみてください。
その後でプルダウンメニュー最下部のClose Menuをクリックしてプルダウンメニューを閉じてください。 Detailed viewにGenscanとUnigeneのトラックが追加されていることがわかります。GDNF遺伝子の周辺を 見るといずれもEnsembl Geneと似ているものの、微妙に異なった遺伝子構造を持っていることがわかります。
このようにEnsemblでは、NCBIから提供されているUnigeneなどの情報を表示することも可能ですが、 モデルメーカーのようなユーザがインタラクティブな操作で遺伝子候補を作成したりすることはできません。
■1-6. ContigView上で他生物種の遺伝子データを表示する
この画面上で他生物種の遺伝子データを表示してみましょう。実現にはいくつか方法が ありますが、このチュートリアルではAlignSliceViewとMultiContigViewを使う方法を二通り紹介することにします。
ContigView画面左側のプルダウンメニューから、"View alignment with"と書かれた箇所にマウスを重ねてみてください。
上図のようなメニューが表示され、今表示しているヒトゲノム情報と並べて表示したい生物種を選んでください。 例としては、"Mus musculus"と書かれたマウスを選択し、クリックすることにします。
すると、現在注目していたヒトゲノムの領域に対応するマウスゲノムのシンテニー領域に関する情報がDetailed viewの下部に 追加されており、ヒトの情報と比べると、ほぼ同じ構造のマウスGdnf遺伝子がアノテートされていることがわかります。
このような表示方法はAlignSliceViewと呼ばれているもので、マスターマップとなっているヒトゲノム情報 と相同性のある領域がヒトゲノムのスケールに合わせて表示されています。
具体的に説明すると、マウスゲノム上で薄い赤で塗られているところ以外(DNA(contigs)では、青く塗られていない 領域)は、その上部のヒトゲノムに関し相同な領域がマウスゲノム上では見つからなかったことを示しており、 GAPとして扱われているわけです。(ヒトをマスターマップにしているため、ヒトにしかない領域は このようにGAPで表現されていますが、マウスにしかない領域は表示されていません。これを表示したい場合には マウスゲノムをマスターマップとしてAlign with...でヒトゲノムを選択してください。)
続いて、もう一通りContigView上で他生物種の遺伝子データを表示する方法を紹介しましょう。今度は 画面左側のメニューの"View alongside..."にマウスを重ねてください。
この場合にも生物種の一覧が表示されますので、"Mus musculus"(マウス)を選択してみてください。
すると、現在注目していたヒトゲノムの領域に対応するマウスゲノムのシンテニー領域に関する情報がDetailed viewの下部に 別枠で追加されており、ヒトの情報と比べると、ほぼ同じ構造のマウスGdnf遺伝子がアノテートされていることがわかります。
この表示方法は"MultiContigView"と呼ばれ、ヒトゲノムのビューアとその表示範囲と相同な領域が マウスゲノムのビューアとして 並んだ形で表示されています。それぞれは各ビューアの下のアイコンの操作で、独立に移動、拡大、縮小 することが可能で、"AlignSliceView"とは異なり、ヒトゲノムと相同性を持たない領域も含め、スケールも ヒトに合わせた形ではなく別のものとして表示されています。
なお、対応する遺伝子間は青の線で結ばれています。
■1-7. Ensembl上で遺伝子の詳細情報を表示する
さてContigViewの画面に戻って、この画面からGDNF遺伝子の詳細情報を取得することにしましょう。 そのためにはまず、GDNF遺伝子の上をクリックしメニューを表示してください。
この中から"Gene"と書かれた箇所をクリックしてみてください。
すると下図のようなGDNFに関する詳細な"GeneView"のページへと移動します。詳細に関しては 別のチュートリアルで紹介することとします。