SAM(ファイル形式)

SAMファイル形式
ファイル名拡張子
.サム
開発者
フォーマットの種類バイオインフォマティクス
延長タブ区切りの値
Webサイトsamtools.github.io/hts-specs/

SAM (Sequence Alignment Map)は、もともとHeng Liと Bob Handsakerによって開発された、参照配列アラインされた生物学的配列を格納するためのテキストベースのフォーマットです。[1]これは、 1000 Genomes Project がMAQ マッパーフォーマットから移行し、新しいフォーマットを設計することを決定したときに開発されました。このフォーマットの全体的なタブ区切りの雰囲気は、 BLATの PSL に触発された以前のフォーマットに由来しています。SAM という名前は、ユタ大学の Gabor Marth に由来します。彼はもともと同じ名前で、BLAST の出力に似た異なる構文のフォーマットを持っていました。[2]これは、次世代シーケンシング技術によって生成されたヌクレオチド配列などのデータを格納するために広く使用されており、標準はマップされていない配列も含むように拡張されています。このフォーマットは、さまざまなシーケンシングプラットフォームによって生成された短い読み取りと長い読み取り(最大128 Mbp [3])をサポートし、ゲノム解析ツールキット(GATK)内、ブロード研究所ウェルカムサンガー研究所1000ゲノムプロジェクト全体でマッピングされたデータを保持するために使用されます。

形式

SAMフォーマットは、ヘッダーとアライメントセクションで構成されています。[1] SAMファイルのバイナリ版は、バイナリアライメントマップ(BAM)ファイルで、同じデータを圧縮バイナリ形式で保存します。[4] SAMファイルは、ソフトウェアSAMtoolsを使用して分析および編集できます。[1]ヘッダーセクションは、アライメントセクションが存在する場合は、その前に配置する必要があります。ヘッダーは「@」記号で始まり、アライメントセクションと区別されます。アライメントセクションには、11個の必須フィールドと、可変数のオプションフィールドがあります。[1]

コル分野タイプ簡単な説明
1QNAMEクエリテンプレート名
2フラグ中位ビット単位のフラグ
3RNAME参照シーケンスNAME
4POS中位1から始まる左端のマッピング位置
5MAPQ中位マッピング品質
6葉巻シガーストリング
7RNEXT参照名/次に読む相手
8PNEXT中位詰将棋/次の読みの位置
9トレン中位観測されたテンプレートの長さ
10シーケンスセグメントシーケンス
11品質PhredスケールベースのQUALity+33のASCII

説明

仕様書より: [4]

  1. QNAME: クエリテンプレート名。同一のQNAMEを持つリード/セグメントは、同じテンプレートに由来するものとみなされます。QNAMEに「*」が付いている場合は、その情報が利用できないことを示します。SAMファイルでは、リードのアライメントがキメラの場合、または複数のマッピングが指定されている場合、リードは複数のアライメントラインにまたがることがあります。
  2. FLAG: ビット単位のFLAGの組み合わせ[5]
  3. RNAME: アライメントの参照配列名。@SQヘッダー行が存在する場合、RNAME('*'でない場合)はSQ-SNタグのいずれかに存在する必要があります。座標を持たないマッピングされていないセグメントの場合、このフィールドには'*'が設定されます。ただし、マッピングされていないセグメントでも、ソート後に任意の位置に配置できるように、通常の座標を持つ場合があります。RNAMEが'*'の場合、POSとCIGARについては何も想定できません。
  4. POS: 最初に一致する塩基の左端のマッピング位置(1から始まる)。参照配列の最初の塩基は座標1です。座標のないマッピングされていないリードの場合、POSは0に設定されます。POSが0の場合、RNAMEとCIGARに関する仮定は適用されません。
  5. MAPQ: マッピング品質。-10 log10 Pr{マッピング位置が間違っている}を最も近い整数に丸めた値です。値が255の場合、マッピング品質が利用できないことを示します。
  6. CIGAR: 簡潔な特異ギャップアライメントレポート (CIGAR) 文字列。
  7. RNEXT: テンプレート内の次のリードのプライマリアライメントの参照配列名。最後のリードの場合、次のリードはテンプレートの最初のリードです。@SQヘッダー行が存在する場合、SQ-SNタグのいずれかにRNEXT('*'または'='でない場合)が存在する必要があります。このフィールドは、情報が利用できない場合は'*'に設定され、RNEXTがRNAMEと同一の場合は'='に設定されます。'='でなく、テンプレート内の次のリードにプライマリマッピングが1つある場合(FLAGのビット0x100も参照)、このフィールドは次のリードのプライマリラインのRNAMEと同一です。RNEXTが'*'の場合、PNEXTとビット0x20については何も想定できません。
  8. PNEXT: テンプレートにおけるNEXTリードのプライマリアライメントの位置。情報が利用できない場合は0に設定されます。このフィールドは、次のリードのプライマリラインのPOSに等しくなります。PNEXTが0の場合、RNEXTとビット0x20については何も想定できません。
  9. TLEN: 符号付き実測テンプレート長。すべてのセグメントが同じ参照にマッピングされている場合、符号なし実測テンプレート長は、マッピングされた左端の塩基から右端の塩基までの塩基数に等しくなります。左端のセグメントにはプラス記号、右端のセグメントにはマイナス記号が付きます。中央のセグメントの符号は未定義です。単一セグメントのテンプレートの場合、または情報が利用できない場合は0に設定されます。
  10. SEQ: セグメントのシーケンス。シーケンスが格納されていない場合、このフィールドは「*」になります。「*」でない場合、シーケンスの長さはCIGARにおけるM/I/S/=/X演算の長さの合計と等しくなければなりません。「=」は、塩基が参照塩基と同一であることを示します。大文字と小文字の区別はありません。
  11. QUAL: ベースQUALityに33を加えたASCIIコード(サンガーFASTQ形式の品質文字列と同じ)。ベース品質は、phredスケールのベースエラー確率で、-10 log10 Pr{ベースが間違っている}に等しくなります。品質が格納されていない場合、このフィールドは「*」になります。「*」でない場合、SEQも「*」にしてはならず、品質文字列の長さはSEQの長さと同じである必要があります。

ビットフラグ

FLAGフィールドは単一の整数として表示されますが、読み取りアライメントの複数の属性を示すビット単位のフラグの合計です。[4] 各属性は、整数の2進表現で1ビットを表します。

ビットフラグ
整数バイナリ説明(ペアリード解釈)
1000000000001シーケンスに複数のテンプレートが含まれるテンプレート(リードがペアになっている)
2000000000010各セグメントはアライナーに従って適切に整列されている(適切なペアでマッピングされた読み取り)
4000000000100セグメントがマップされていない(read1 がマップされていない)
8000000001000テンプレートの次のセグメントはマップされていません(read2はマップされていません)
16000000010000SEQ が逆補完される(read1 が逆補完される)
32000000100000逆補完されるテンプレートの次のセグメントのSEQ(read2逆補完)
64000001000000テンプレートの最初のセグメント(read1)
128000010000000テンプレートの最後のセグメント(read2)
256000100000000主要なアライメントではない
512001000000000アライメントが品質チェックに不合格
1024010000000000PCRまたは光学複製
2048100000000000補足アライメント(例:アライナー固有、分割リードまたは結合領域の一部である可能性があります)

FLAG 属性は最終値を得るために合計されます。たとえば、FLAG 値 2145 を持つ Illumina ペアエンド FASTQ レコードから得られる SAM 行は次のようになります。

フラグ値意味フラグ合計
1読み取りはペアになっています1
32read2は逆補完された33
64読む197
2048補足的な配置2145

オプションフィールド

配列アライメント/マップオプションフィールド仕様(SAMtags)の仕様から:[6]

は、 A(文字)、C(0~255の整数)、f(実数)、H(16進配列)、i(整数)、Z (文字列)のいずれかです。単一の値またはB(一般配列)の場合もあります。

タグタイプ説明
午前テンプレート内の最小のテンプレート非依存マッピング品質
としてアライナーによって生成されたアライメントスコア
紀元前Zサンプルを識別するバーコード配列
BQZオフセット対ベースアライメント品質(BAQ)
BZZOXタグ内のユニークな分子バーコード塩基のPhred品質
CBZセル識別子
CCZ次のヒットの参照名
CGB、私BAMのみ: BAMのバイナリエンコードにおけるCIGARは、65535を超える演算子で構成される場合のみ
CM色シーケンスと色参照間の距離を編集します(NMも参照)
二酸化炭素Z自由記述コメント
CP次のヒットの左端の座標
CQZカラー読み取り基本品質
CRZ細胞バーコード配列塩基(未補正)
CSZカラー読み取りシーケンス
CTZコンセンサスアノテーションダミーフィーチャーに使用される完全なリードアノテーションタグ
CYZCRタグ内の細胞バーコード配列のPhred品質
E2Z2番目に可能性の高いベースコール
FIテンプレート内のセグメントのインデックス
FSZセグメント接尾辞
FZB、Sフロー信号強度
GC?下位互換性のために予約されています
GQ?下位互換性のために予約されています
GS?下位互換性のために予約されています
H0パーフェクトヒット数
H11差異ヒット数(NMも参照)
水素2差ヒット数
こんにちはクエリヒットインデックス
IHクエリヒット総数
ポンドZ図書館
MCZメイト/次のセグメントのCIGAR文字列
医学博士Z不一致の位置の文字列
MF?下位互換性のために予約されています
ミドルネームZ分子識別子。レコードの元となった分子を一意に識別する文字列。
MLB、C塩基修飾確率
MMZ塩基修飾/メチル化
MQメイト/次のセグメントのマッピング品質
NH現在のレコード内のクエリを含む報告されたアライメントの数
ニューメキシコ州参照までの距離を編集
OAZ元の配置
OCZオリジナル CIGAR (非推奨。代わりに OA を使用してください)
OP元のマッピング位置(非推奨。代わりに OA を使用してください)
OQZオリジナルのベース品質
Z独自の分子バーコードベース
PGZプログラム
PQテンプレートのPhred尤度
PTZパディングされたリードシーケンスの一部に対するリードアノテーション
PUZプラットフォームユニット
質問2ZR2タグ内のメイト/次のセグメント配列のPhred品質
QTZBCタグ内のサンプルバーコード配列のPhred品質
QXZRXタグ内の固有分子識別子の品質スコア
R2Zテンプレート内のメイト/次のセグメントのシーケンス
RGZ読書グループ
RT?下位互換性のために予約されています
処方箋Z(修正された可能性のある)固有の分子識別子の配列塩基
シーズン2?下位互換性のために予約されています
南アフリカZキメラアラインメントにおける他の標準的なアラインメント
SMテンプレートに依存しないマッピング品質
スクエア?下位互換性のために予約されています
TCテンプレート内のセグメント数
U2Z最善の判断が間違っているという条件付きで、2 番目の判断が間違っている確率 (Phred)
英国Qマッピングが正しいことを条件とするセグメントの Phred 尤度
バツ??エンドユーザー専用
え??エンドユーザー専用
ず??エンドユーザー専用

参照

参考文献

  1. ^ abcde Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. (2009). 「配列アライメント/マップフォーマットとSAMtools」(PDF) .バイオインフォマティクス. 25 (16): 2078– 2079. doi :10.1093/bioinformatics/btp352. ISSN  1367-4803. PMC 2723002.  PMID 19505943  .
  2. ^ Edmunds, Scott (2021年2月17日). 「SAMtoolsをもう一度使ってみよう。バイオインフォマティクスの「接着剤」を提供してきた12年間について、SAMtoolsチームに聞く」GigaScience . 2021年3月20日閲覧
  3. ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. (2023). 計算生命科学:生命科学のためのデータエンジニアリングとデータマイニング.ビッグデータ研究.Springer International Publishing. p. 447. ISBN 978-3-031-08411-9. 2023年7月19日閲覧
  4. ^ abc 「SAM/BAM フォーマット仕様」(PDF) . samtools.github.io .
  5. ^ 「SAMフラグの説明」broadinstitute.github.io . 2023年11月4日閲覧
  6. ^ 「シーケンスアライメント/マップオプションフィールド仕様」(PDF) . samtools.github.io .
「https://en.wikipedia.org/w/index.php?title=SAM_(file_format)&oldid=1200889282」から取得