GenBank クイックスタート

GenBankはNLM/NCBIにて維持管理されている核酸配列データベースです。また、GenBankはEMBL, DDBJと三極間で 連携しながら国際核酸配列データベースを共同で構築しています。これら三機関はデータを日々交換し続けており、 その規模は160000種にも及ぶ生物種の塩基配列から成り立つまでになっています。

このGenBankクイックスタートでは、

  1. GenBankの歴史と発展
  2. タイプの異なるエントリの種類とアクセッション番号との関連性
  3. GenBankの典型的なエントリのフォーマットとそのアノテーション
  4. GenBankへの配列登録ツール:BankItおよびSequinの使い方
  5. GenBankにおいてどのように配列登録が行われるか
  6. GenBank ftpサイトの概要
  7. 効率的にGenBankからデータを取得するためのTips
などを紹介していきます。

課題1

■ 課題1-1

Entrez-Nucleotideを用いて"pannexin"という単語を含むエントリを検索してみてください。

何エントリがヒットしましたか?その中でCoreNucleotide、ESTに含まれるエントリはそれぞれいくつですか?

検索結果を1ページ内に全件表示させてください。

解答1-1を見る

■ 課題1-2

CoreNucleotideデータにヒットしたエントリの中から GenBankに登録されたgenomic DNA由来のエントリだけに絞り込んでください。

GenBankには冗長なエントリが含まれていますか?

pannexinに関して複数のエクソンが含まれるエントリと個々のエクソンが登録されているエントリ とを見つけてください。

解答1-2を見る

■ 課題1-3

絞り込まれた検索結果の中から、アクセッション番号AY048509のエントリを例として以下の質問に答えてみてください。

いつが最後の更新日ですか?

このエントリは登録後、更新されていますか?

このエントリにはコード領域が完全に含まれていますか?

5'UTRはこのエントリ内のどの部分に相当しますか?

このエントリに含まれるコード領域を翻訳したアミノ酸配列のアクセッション番号は何番ですか?

解答1-3を見る

■ 課題1-4

Entrezの検索結果に戻ってください。ソースデータベースをRefSeqに変更し、molecular typeをmRNA、 さらに生物種をヒトに限ってください。

いくつのエントリが表示されていますか?これら全部のエントリをFASTA形式で保存してください。

解答1-4を見る

■ 課題1-5

アクセッション番号NM_015368の更新履歴を見てください。最新の更新はいつですか?登録後何回更新されていますか? 更新日はいつですか?

解答1-5を見る

課題2

今度は、FOXP2遺伝子を使って上述した手順を繰り返して下さい。

■ 課題2-1

Entrez-Nucleotideを用いて"FOXP2"という単語を含むエントリを検索してみてください。

何エントリがヒットしましたか?その中でCoreNucleotide、ESTに含まれるエントリはそれぞれいくつですか?

検索結果を1ページ内に全件表示させてください。

■ 課題2-2

CoreNucleotideデータにヒットしたエントリの中から GenBankに登録されたgenomic DNA由来のエントリだけに絞り込んでください。

GenBankには冗長なエントリが含まれていますか?

FOXP2に関して複数のエクソンが含まれるエントリと個々のエクソンが登録されているエントリ とを見つけてください。

■ 課題2-3

絞り込まれた検索結果の中から、アクセッション番号AF515032のエントリを例として以下の質問に答えてみてください。

いつが最後の更新日ですか?

このエントリは登録後、更新されていますか?

このエントリにはコード領域が完全に含まれていますか?

5'UTRはこのエントリ内のどの部分に相当しますか?

このエントリに含まれるコード領域を翻訳したアミノ酸配列のアクセッション番号は何番ですか?

■ 課題2-4

Entrezの検索結果に戻ってください。ソースデータベースをRefSeqに変更し、molecular typeをmRNA、 さらに生物種をヒトに限ってください。

いくつのエントリが表示されていますか?これら全部のエントリをFASTA形式で保存してください。

■ 課題2-5

アクセッション番号NM_148900の更新履歴を見てください。最新の更新はいつですか?登録後何回更新されていますか? 更新日はいつですか?

解答2を見る

解答・解説

■ 解答1-1

Entrez-Nucleotideを用いた検索

NCBIトップページを開きましょう。


画面上部の検索窓を使ってNucleotideデータベースから"pannexin"という単語を含むエントリを 検索します。画面上部の検索サービスはEntrezと呼ばれ、文献から塩基配列、SNPs、ゲノム、立体構造 など様々なデータベースへの検索を提供しています。その中のNucleotideデータベースはGenBank, RefSeq, PDBなど 様々なソースから塩基配列を集めたものです。

プルダウンメニューからNucleotideを選択し、検索窓にpannexinと打ち込んで検索を実行します。


検索結果の上部から、201エントリにヒットしたことがわかります。(赤四角)


また、右横に書かれている情報から201エントリの内訳は、CoreNucleotideに175エントリ、ESTに26エントリ であることが分かります。

デフォルトの検索結果画面ではCoreNucleotideにヒットした175エントリが20件ずつのページに分かれて 表示されています。

検索結果の表示件数を変える

今は、175件のヒットのうち先頭の20件が表示されています。この表示件数を変えて、全件が表示されるように してみましょう。そのためには、画面上部のshowと書かれた右横のプルダウンメニューから 1ページあたりの表示件数を選択します。


全部で175件なので、200を選択します。


上図のように全件が1ページに収まって表示できているのが確認できます。

課題1-1に戻る? 課題1-2に進む!

■ 解答1-2

検索結果を絞り込む

続いて、ヒットしたエントリからgenomic DNA由来のエントリに絞り込んでみましょう。

検索結果の絞込みには画面上部の"Limits"と書かれたタブから行うのが一番簡単になります。クリックしてみましょう。


すると下図のように様々な条件をプルダウンメニューで選んで選択し、その条件で絞り込んでから 先ほどと同じキーワード(例ですとpannexin)で検索が可能です。


まず、genomic DNA由来に絞り込むには、 Moleculeと書かれたプルダウンメニューから"genomic DNA/RNA"を、


GenBankに登録されたエントリに絞り込むには、Only fromと書かれた プルダウンメニューから"GenBank"を選択し、


再度上の検索窓に"pannexin"というキーワードが入っていることを確認して 検索を実行してください。


"Limits"タブにチェックが入って、Limits:Genomic DNA/RNA, GenBankと書かれていることから 絞込み検索が行われたことを確認してください。(下図の赤く囲んだ領域)


結果が15件に絞り込まれたことがわかります。



結果を下のほうにスクロールしてみていくと、PANX1遺伝子のエクソンが複数登録されていることが わかります。このようにGenBankには冗長度が含まれているため、ユーザ側でどのエントリを用いるかを ある程度判断することも必要です。例えば、赤く囲んだアクセッション番号AF398508のエントリには、 PANX1遺伝子のエクソン3,4,5番目が完全に含まれたゲノム断片が登録されていることがわかりますし、 AF398507にはエクソン2番目のみを含むゲノム断片が登録されていることがわかります。

課題1-2に戻る? 課題1-3に進む!

■ 解答1-3

エントリの更新状況を知る

では、検索結果からアクセッション番号AY048509のエントリをクリックして詳細を表示させてみてください。


このように各エントリは、はじめの部分でエントリに関する情報が記述された後、最後に配列が書かれています。

最終の更新日は、エントリの1行目LOCUSと書かれた行の一番右側に表示されています。


2001年9月21日に最終更新されたことがわかります。

次に、登録後このエントリが更新されたかは、VERSIONと書かれた箇所を見ることでわかります。


GenBankでは、登録された時にアクセッション番号が発行されますが(例ではAY048509)、その際に VERSION番号というものも発行されます。VERSIONは登録時が1で更新されるたびに2,3と数字が一つずつ増えていきます。 この数字はアクセッション番号の後ろに.1, .2というように付け加えられています。このエントリのVERSIONは AY048509.1ですので、登録時から更新されていないことがわかります。

ゲノムエントリからエクソン情報を知る

次に、このエントリに書かれたエクソン(遺伝子)情報を見ていきましょう。エントリのどの領域にエクソンが 含まれるかなどのアノテーション情報はFEATURESに書かれています。


まず、簡単に情報の読み方を説明します。各情報はフィールド名、その位置、説明という基本構成をしており、 "/"で始まる行はその上の行の続きであることを示しています。

位置は[start]..[end]という形式が基本形で エントリの何bp(start)〜何bp(end)にこのフィールドがアノテートされていることを示します。 派生形として、[start]..>[end]や[start]<..[end]といった形式があり、少なくともこのフィールドが [start]から[end]までは続いているがさらに下流や上流に続いていることを示しています。

説明は基本的に[a]=[b]という形式をとっており、[a]という特徴は[b]です。と読みます。

実際に見てみましょう。


geneフィールドから、このエントリの606bp〜1430bpにPANX1という遺伝子が含まれていることがわかります。 また、"..>1430"と書かれているのでこの遺伝子はさらに下流まで続いており、一部分がエントリに含まれている ことがわかります。同時にstart側には<がついていないので、このエントリの606bpが遺伝子の5'端ということも わかります。


exonフィールドから、このエントリの606bp〜1170bpに1番目のエクソンが含まれていることがわかります。

 


CDSフィールドからは、990bp〜1170bpにCDSの頭の部分が含まれており、さらに下流に続いていることが わかります。exonフィールドの情報と組み合わせて考えると、ファーストエクソンは606bp〜1170bpであり990bpから がスタートコドンで翻訳領域となり、606bp〜989bpは5'UTRになることがわかります。また、翻訳されたアミノ酸配列は AAL06604として登録されていることも分かります。

課題1-3に戻る? 課題1-4に進む!

■ 解答1-4

検索結果を絞り込む(その2)

再度検索結果を絞り込んで見ましょう。pannexinというキーワードで検索し、Limitsタブをクリックして 絞込みのページに移動します。


まず、Only fromよりソースをRefSeqに設定し、


MoleculeよりmRNAに設定します。


生物種をヒトに限る方法ですが、上部の検索窓に"pannexin"の後ろに" AND human[organism]"と入力して AND検索により実現します。


すると下図のように3件のヒットが確認できます。


検索結果をFASTAファイルで保存する

続いて絞り込まれた3件のエントリをFASTA形式で保存してみましょう。 画面上部Display横のプルダウンメニューから"FASTA"を選択し、


multi FASTA形式で表示させた後、


Showの二つとなりのプルダウンメニューから"File"を選択し、適切な名前をつけることで 検索結果をFASTA形式で保存することができます。


課題1-4に戻る? 課題1-5に進む!

■ 解答1-5

エントリの更新履歴を見る

検索結果に戻ってください。


エントリNM_015368をクリックして 詳細を見てみましょう。


LOCUS行の情報から最新の更新日は2008年10月12日であることがわかります。

続いて、更新履歴を見てみましょう。更新履歴は、エントリ番号の右にある"Reports"を クリックして表示されるメニューから"Revision History"を選ぶことで表示されます。


クリックしてみましょう。


極めて多くの更新がなされていることがわかります。配列が変わることによるVersionは3回 しか更新されていませんが、FEATURESなどに変更があったため非常に多くの更新があったことが わかります。その日付も合わせてわかります。

課題1-5に戻る?

解答・解説2

課題1の手順でpannexinのところをFOXP2に変えて同じ事を実行してみてください。