最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

bowtie2的SAM文件格式

IT圈 admin 44浏览 0评论

2024年3月30日发(作者:南白山)

SAM格式-Bowtie2(简要介绍)

2013年06月03日 ? Bioinformatics ? 字号 小 中 大 ? 暂无评论? 阅读 3,370 次 [点

击加入在线收藏夹]

(首先推荐public Library of Bioinformatics的《SAM格式》和《Bowtie2使用方法

与参数详细介绍》两篇文章,有不足处希望大家提出)

1,简介:

文件后缀名:.sam

Bowtie2是现下最流行的短序列比对软件,SAM(Sequence Alignment/Map)格式是一种通

用的比对格式,用来存储reads到参考序列的比对信息。

2,行、列、注释说明:

注释:以@开头的行

行:除注释外,每一行是一个read

列:

第一列:read name,read的名字通常包括测序平台等信息

NA-379DBF:1:1:3445:946#0/1

第二列:sum of flags,为flag的总和(整数),flag取值见备注(3)

eg.16

第三列:RNAM,reference sequence name,实际上就是比对到参考序列上的染色体号。

若是无法比对,则是*

1

第四列:position,read比对到参考序列上,第一个碱基所在的位置。若是无法比对,

则是0

eg.36576599

第五列:Mapping quality,比对的质量分数,越高说明该read比对到参考基因组上的

位置越唯一。

eg.42

第六列:CIGAR值,碱基匹配上的碱基数。match/mismatch、insertion、deletion 对

应字母 M、I、D

eg.36M 表示36个碱基在比对时完全匹配

注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义。

第七列:MRNM(chr),mate的reference sequence name,实际上就是mate比对到的染

色体号,若是没有mate,则是*

eg.*

第八列:mate position,mate比对到参考序列上的第一个碱基位置,若无mate,则为0

eg.0

第九列:ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和

mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则

为0

eg.0

第十列:Sequence,就是read的碱基序列,如果是比对到互补链上则对read进行了

reverse completed

TGTGGGTGATGGGCCTGAGGGGCGTTCTCN

第十一列:ASCII,read质量的ASCII编码。

[[YY_______________QQQQbILKIGEFGKB

第十二列之后:Optional fields,以tab建分割。详见备注(2)

:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU

扩展:

3,应用举例:

SAM文件可以作为很多后续分析的源文件,也可以从其中提取感兴趣的信息。

4,备注:

(1)mate,在Illuminated中有两种测序技术:paired end sequencing,mate pair

sequencing。这两种测序都是测的一个片段的两端,这两端产生的reads被称为mate1,mate2,

单末端测序则无mate。

(2)Optional fields:

AS:i:

Alignment score.可以为负的,在local下可以为正的。 只有当Align≥1 time才出现

XS:i:

Alignment score for second-best alignment. 当Align>1 time出现

YS:i:

Alignment score for opposite mate in the paired-end alignment. 当该read是双末端

测序中的一条时出现

XN:i:

The number of ambiguous bases in the reference covering this alignment.(推测是指

不知道错配发生在哪个位置,推测是针对于插入和缺失,待查证)

XM:i:

错配碱基的数目

XO:i:

The number of gap opens(针对于比对中的插入和缺失)

XG:i:

The number of gap extensions(针对于比对中的插入和缺失)

NM:i:

The edit distance(read string转换成reference string需要的最少核苷酸的edits:插入

/缺失/替换)

YF:Z:

该reads被过滤掉的原因。可能为LN(错配数太多,待查证)、NS(read中包含N或者.)、

SC(match bonus低于设定的阈值)、QC(failing quality control,待证)

YT:Z:

值为UU表示不是pair中一部分(单末端?)、CP(是pair且可以完美匹配)

DP(是pair但不能很好的匹配)、UP(是pair但是无法比对到参考序列上)

MD:Z:

比对上的错配碱基的字符串表示

(3)flag取值

0:比对到参考序列的正链上(待求证)

1:是paired-end或mate pair中的一条

2:双末端比对的一条

4:没有比对到参考序列上

8:是paired-end或mate pair中的一条,且无法比对到参考序列上

16:比对到参考序列的负链上

32:双末端reads的另一条(mate)比对到参考序列的负链上

64:这条read是mate 1

128:这条read是mate 2

5,参考文献

mate pair sequencing

paired-end sequencing

bowtie2_manual

SAM and SAMTools

2024年3月30日发(作者:南白山)

SAM格式-Bowtie2(简要介绍)

2013年06月03日 ? Bioinformatics ? 字号 小 中 大 ? 暂无评论? 阅读 3,370 次 [点

击加入在线收藏夹]

(首先推荐public Library of Bioinformatics的《SAM格式》和《Bowtie2使用方法

与参数详细介绍》两篇文章,有不足处希望大家提出)

1,简介:

文件后缀名:.sam

Bowtie2是现下最流行的短序列比对软件,SAM(Sequence Alignment/Map)格式是一种通

用的比对格式,用来存储reads到参考序列的比对信息。

2,行、列、注释说明:

注释:以@开头的行

行:除注释外,每一行是一个read

列:

第一列:read name,read的名字通常包括测序平台等信息

NA-379DBF:1:1:3445:946#0/1

第二列:sum of flags,为flag的总和(整数),flag取值见备注(3)

eg.16

第三列:RNAM,reference sequence name,实际上就是比对到参考序列上的染色体号。

若是无法比对,则是*

1

第四列:position,read比对到参考序列上,第一个碱基所在的位置。若是无法比对,

则是0

eg.36576599

第五列:Mapping quality,比对的质量分数,越高说明该read比对到参考基因组上的

位置越唯一。

eg.42

第六列:CIGAR值,碱基匹配上的碱基数。match/mismatch、insertion、deletion 对

应字母 M、I、D

eg.36M 表示36个碱基在比对时完全匹配

注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义。

第七列:MRNM(chr),mate的reference sequence name,实际上就是mate比对到的染

色体号,若是没有mate,则是*

eg.*

第八列:mate position,mate比对到参考序列上的第一个碱基位置,若无mate,则为0

eg.0

第九列:ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和

mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则

为0

eg.0

第十列:Sequence,就是read的碱基序列,如果是比对到互补链上则对read进行了

reverse completed

TGTGGGTGATGGGCCTGAGGGGCGTTCTCN

第十一列:ASCII,read质量的ASCII编码。

[[YY_______________QQQQbILKIGEFGKB

第十二列之后:Optional fields,以tab建分割。详见备注(2)

:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU

扩展:

3,应用举例:

SAM文件可以作为很多后续分析的源文件,也可以从其中提取感兴趣的信息。

4,备注:

(1)mate,在Illuminated中有两种测序技术:paired end sequencing,mate pair

sequencing。这两种测序都是测的一个片段的两端,这两端产生的reads被称为mate1,mate2,

单末端测序则无mate。

(2)Optional fields:

AS:i:

Alignment score.可以为负的,在local下可以为正的。 只有当Align≥1 time才出现

XS:i:

Alignment score for second-best alignment. 当Align>1 time出现

YS:i:

Alignment score for opposite mate in the paired-end alignment. 当该read是双末端

测序中的一条时出现

XN:i:

The number of ambiguous bases in the reference covering this alignment.(推测是指

不知道错配发生在哪个位置,推测是针对于插入和缺失,待查证)

XM:i:

错配碱基的数目

XO:i:

The number of gap opens(针对于比对中的插入和缺失)

XG:i:

The number of gap extensions(针对于比对中的插入和缺失)

NM:i:

The edit distance(read string转换成reference string需要的最少核苷酸的edits:插入

/缺失/替换)

YF:Z:

该reads被过滤掉的原因。可能为LN(错配数太多,待查证)、NS(read中包含N或者.)、

SC(match bonus低于设定的阈值)、QC(failing quality control,待证)

YT:Z:

值为UU表示不是pair中一部分(单末端?)、CP(是pair且可以完美匹配)

DP(是pair但不能很好的匹配)、UP(是pair但是无法比对到参考序列上)

MD:Z:

比对上的错配碱基的字符串表示

(3)flag取值

0:比对到参考序列的正链上(待求证)

1:是paired-end或mate pair中的一条

2:双末端比对的一条

4:没有比对到参考序列上

8:是paired-end或mate pair中的一条,且无法比对到参考序列上

16:比对到参考序列的负链上

32:双末端reads的另一条(mate)比对到参考序列的负链上

64:这条read是mate 1

128:这条read是mate 2

5,参考文献

mate pair sequencing

paired-end sequencing

bowtie2_manual

SAM and SAMTools

发布评论

评论列表 (0)

  1. 暂无评论