GenBank　クイックスタート

GenBank クイックスタート

GenBankはNLM/NCBIにて維持管理されている核酸配列データベースです。また、GenBankはEMBL, DDBJと三極間で連携しながら国際核酸配列データベースを共同で構築しています。これら三機関はデータを日々交換し続けており、その規模は160000種にも及ぶ生物種の塩基配列から成り立つまでになっています。

このGenBankクイックスタートでは、

GenBankの歴史と発展
タイプの異なるエントリの種類とアクセッション番号との関連性
GenBankの典型的なエントリのフォーマットとそのアノテーション
GenBankへの配列登録ツール：BankItおよびSequinの使い方
GenBankにおいてどのように配列登録が行われるか
GenBank ftpサイトの概要
効率的にGenBankからデータを取得するためのTips

などを紹介していきます。

課題1

■ 課題1-1

Entrez-Nucleotideを用いて"pannexin"という単語を含むエントリを検索してみてください。

何エントリがヒットしましたか？その中でCoreNucleotide、ESTに含まれるエントリはそれぞれいくつですか？

検索結果を1ページ内に全件表示させてください。

解答1-1を見る

■ 課題1-2

CoreNucleotideデータにヒットしたエントリの中から GenBankに登録されたgenomic DNA由来のエントリだけに絞り込んでください。

GenBankには冗長なエントリが含まれていますか？

pannexinに関して複数のエクソンが含まれるエントリと個々のエクソンが登録されているエントリとを見つけてください。

解答1-2を見る

■ 課題1-3

絞り込まれた検索結果の中から、アクセッション番号AY048509のエントリを例として以下の質問に答えてみてください。

いつが最後の更新日ですか？

このエントリは登録後、更新されていますか？

このエントリにはコード領域が完全に含まれていますか？

5'UTRはこのエントリ内のどの部分に相当しますか？

このエントリに含まれるコード領域を翻訳したアミノ酸配列のアクセッション番号は何番ですか？

解答1-3を見る

■ 課題1-4

Entrezの検索結果に戻ってください。ソースデータベースをRefSeqに変更し、molecular typeをmRNA、さらに生物種をヒトに限ってください。

いくつのエントリが表示されていますか？これら全部のエントリをFASTA形式で保存してください。

解答1-4を見る

■ 課題1-5

アクセッション番号NM_015368の更新履歴を見てください。最新の更新はいつですか？登録後何回更新されていますか？更新日はいつですか？

解答1-5を見る

課題2

今度は、FOXP2遺伝子を使って上述した手順を繰り返して下さい。

■ 課題2-1

Entrez-Nucleotideを用いて"FOXP2"という単語を含むエントリを検索してみてください。

何エントリがヒットしましたか？その中でCoreNucleotide、ESTに含まれるエントリはそれぞれいくつですか？

検索結果を1ページ内に全件表示させてください。

■ 課題2-2

CoreNucleotideデータにヒットしたエントリの中から GenBankに登録されたgenomic DNA由来のエントリだけに絞り込んでください。

GenBankには冗長なエントリが含まれていますか？

FOXP2に関して複数のエクソンが含まれるエントリと個々のエクソンが登録されているエントリとを見つけてください。

■ 課題2-3

絞り込まれた検索結果の中から、アクセッション番号AF515032のエントリを例として以下の質問に答えてみてください。

いつが最後の更新日ですか？

このエントリは登録後、更新されていますか？

このエントリにはコード領域が完全に含まれていますか？

5'UTRはこのエントリ内のどの部分に相当しますか？

このエントリに含まれるコード領域を翻訳したアミノ酸配列のアクセッション番号は何番ですか？

■ 課題2-4

Entrezの検索結果に戻ってください。ソースデータベースをRefSeqに変更し、molecular typeをmRNA、さらに生物種をヒトに限ってください。

いくつのエントリが表示されていますか？これら全部のエントリをFASTA形式で保存してください。

■ 課題2-5

アクセッション番号NM_148900の更新履歴を見てください。最新の更新はいつですか？登録後何回更新されていますか？更新日はいつですか？

解答2を見る

解答・解説

■ 解答1-1

Entrez-Nucleotideを用いた検索

NCBIトップページを開きましょう。

画面上部の検索窓を使ってNucleotideデータベースから"pannexin"という単語を含むエントリを検索します。画面上部の検索サービスはEntrezと呼ばれ、文献から塩基配列、SNPs、ゲノム、立体構造など様々なデータベースへの検索を提供しています。その中のNucleotideデータベースはGenBank, RefSeq, PDBなど様々なソースから塩基配列を集めたものです。

プルダウンメニューからNucleotideを選択し、検索窓にpannexinと打ち込んで検索を実行します。

検索結果の上部から、201エントリにヒットしたことがわかります。（赤四角）

また、右横に書かれている情報から201エントリの内訳は、CoreNucleotideに175エントリ、ESTに26エントリであることが分かります。

デフォルトの検索結果画面ではCoreNucleotideにヒットした175エントリが20件ずつのページに分かれて表示されています。

検索結果の表示件数を変える

今は、175件のヒットのうち先頭の20件が表示されています。この表示件数を変えて、全件が表示されるようにしてみましょう。そのためには、画面上部のshowと書かれた右横のプルダウンメニューから 1ページあたりの表示件数を選択します。

全部で175件なので、200を選択します。

上図のように全件が1ページに収まって表示できているのが確認できます。

課題1-1に戻る? 課題1-2に進む!

■ 解答1-2

検索結果を絞り込む

続いて、ヒットしたエントリからgenomic DNA由来のエントリに絞り込んでみましょう。

検索結果の絞込みには画面上部の"Limits"と書かれたタブから行うのが一番簡単になります。クリックしてみましょう。

すると下図のように様々な条件をプルダウンメニューで選んで選択し、その条件で絞り込んでから先ほどと同じキーワード（例ですとpannexin）で検索が可能です。

まず、genomic DNA由来に絞り込むには、 Moleculeと書かれたプルダウンメニューから"genomic DNA/RNA"を、

GenBankに登録されたエントリに絞り込むには、Only fromと書かれたプルダウンメニューから"GenBank"を選択し、

再度上の検索窓に"pannexin"というキーワードが入っていることを確認して検索を実行してください。

"Limits"タブにチェックが入って、Limits:Genomic DNA/RNA, GenBankと書かれていることから絞込み検索が行われたことを確認してください。（下図の赤く囲んだ領域）

結果が15件に絞り込まれたことがわかります。

結果を下のほうにスクロールしてみていくと、PANX1遺伝子のエクソンが複数登録されていることがわかります。このようにGenBankには冗長度が含まれているため、ユーザ側でどのエントリを用いるかをある程度判断することも必要です。例えば、赤く囲んだアクセッション番号AF398508のエントリには、 PANX1遺伝子のエクソン3,4,5番目が完全に含まれたゲノム断片が登録されていることがわかりますし、 AF398507にはエクソン2番目のみを含むゲノム断片が登録されていることがわかります。

課題1-2に戻る? 課題1-3に進む!

■ 解答1-3

エントリの更新状況を知る

では、検索結果からアクセッション番号AY048509のエントリをクリックして詳細を表示させてみてください。

このように各エントリは、はじめの部分でエントリに関する情報が記述された後、最後に配列が書かれています。

最終の更新日は、エントリの1行目LOCUSと書かれた行の一番右側に表示されています。

2001年9月21日に最終更新されたことがわかります。

次に、登録後このエントリが更新されたかは、VERSIONと書かれた箇所を見ることでわかります。

GenBankでは、登録された時にアクセッション番号が発行されますが（例ではAY048509）、その際に VERSION番号というものも発行されます。VERSIONは登録時が1で更新されるたびに2,3と数字が一つずつ増えていきます。この数字はアクセッション番号の後ろに.1, .2というように付け加えられています。このエントリのVERSIONは AY048509.1ですので、登録時から更新されていないことがわかります。

ゲノムエントリからエクソン情報を知る

次に、このエントリに書かれたエクソン（遺伝子）情報を見ていきましょう。エントリのどの領域にエクソンが含まれるかなどのアノテーション情報はFEATURESに書かれています。

まず、簡単に情報の読み方を説明します。各情報はフィールド名、その位置、説明という基本構成をしており、 "/"で始まる行はその上の行の続きであることを示しています。

位置は[start]..[end]という形式が基本形でエントリの何bp(start)～何bp(end)にこのフィールドがアノテートされていることを示します。派生形として、[start]..>[end]や[start]<..[end]といった形式があり、少なくともこのフィールドが [start]から[end]までは続いているがさらに下流や上流に続いていることを示しています。

説明は基本的に[a]=[b]という形式をとっており、[a]という特徴は[b]です。と読みます。

実際に見てみましょう。

geneフィールドから、このエントリの606bp～1430bpにPANX1という遺伝子が含まれていることがわかります。また、"..>1430"と書かれているのでこの遺伝子はさらに下流まで続いており、一部分がエントリに含まれていることがわかります。同時にstart側には<がついていないので、このエントリの606bpが遺伝子の5'端ということもわかります。

exonフィールドから、このエントリの606bp～1170bpに1番目のエクソンが含まれていることがわかります。

CDSフィールドからは、990bp～1170bpにCDSの頭の部分が含まれており、さらに下流に続いていることがわかります。exonフィールドの情報と組み合わせて考えると、ファーストエクソンは606bp～1170bpであり990bpからがスタートコドンで翻訳領域となり、606bp～989bpは5'UTRになることがわかります。また、翻訳されたアミノ酸配列は AAL06604として登録されていることも分かります。

課題1-3に戻る? 課題1-4に進む!

■ 解答1-4