ゲノム配列を取得する際の注意点

 ゲノム配列を取得する方法はいくつかあります。

 IGVなどのゲノムビューワーでは、あらかじめよく使われるモデル生物がリストアップされており、そこからゲノム配列の取得をすることができます。しかし、ゲノム配列にはバージョンが存在するので、自分のほしいデータとバージョンが一致しているかどうか、ゲノム配列を取得する際には注意しなければなりません。

 ヒトの場合、hg19(GRCh37)やhg38(GRCh38)のように、数字でゲノム配列のバージョンが管理されていますが、NCBIではさらに細かいバージョン管理が行われています。

 まずは最新のゲノム配列を見てみましょう。NCBIのトップページからデータベースに「Genome」を選択、検索ワードに「human」と入力して検索してください。

tips1632_1

 表示された結果はヒトの最新ゲノム情報になります。

tips1632_2

 赤枠をご覧ください。「GRCh38」のバージョン名の後に「.p8」とあります。実はこれもバージョンを表しており、小さなアップデートではここの数字が変わります。バージョンに対応してdbSNPなどのアノテーションも異なるので、必要に応じてリリースノートなどの情報確認が必要です。

 最新のゲノム配列以外はNCBIではFTPサイトで取得できます。

tips1632_3

 今回はNCBIを例に見てきましたが、データベースごとに保存されているデータは異なります。ポジションやアノテーションの付け方も異なるため、複数のデータベースから取得したデータを比較する際には、相互対応があるか、気を付けてみてください。