FASTAファイルについて

 久しぶりの更新となってしまい申し訳ありません。 今回は初心に帰ってFASTAファイルについてになります。

 FASTAファイルはバイオインフォマティクスをやっていなくてもご利用されている方もいらっしゃるかと思います。 そうでない方も、シンプルなのにたくさんの情報が詰まった便利なファイルですので是非ご確認ください。
拡張子についてはこちら
 FASTAファイルは塩基、アミノ酸配列の情報を記載するファイルフォーマットであり、次のような書式になっています。
 「>(大なり)」で始まる行は配列のID(ユニークな名称)です。 次のID(>(大なり)が来るまで、1つの配列情報です。配列は好きな位置で改行できます。

 塩基のATGCのように1分子を1文字であらわし、配列の並びがわかります。 どの文字が何の分子を表しているかのルールとして、 IUPACコード が使われていることが多いです。

 1分子1文字とはいえ、ヒトのゲノムサイズは約30億塩基対であるため、ゲノムのFASTAファイルのデータサイズはかなり巨大になります。
巨大ファイルの見方についてこちら
 次のような特殊な配列もあらわすことができます。
N 不明な分子
. (または「-」) ギャップ
 データベースによっては複数の分子を表すこともあり、SNPなども表現できます。 また、大文字小文字で情報で信頼度や繰り返し配列を表すこともあります。信頼度の場合、大文字で信頼度の高い情報、小文字で信頼度の低い情報を表します。

 ここまでくると、FASTAファイルの提供元がどんなルールで記載しているか明示してあることが多いです。 FASTAファイルを見かけた際は、是非注目してみてください。