最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

Bowtie2使用方法与参数详细介绍 - Public Library of Bioinformatics

IT圈 admin 25浏览 0评论

2024年3月10日发(作者:仝蕴美)

Bowtie2使用方法与参数详细介绍 - Public

Library of Bioinformatics

懒人必看

Bowtie2 -q --phred33 --sensitive --end-to-end -I 0 -X 500 --fr --un unpaired --al aligned

--un-conc unconc --al-conc alconc -p 6 --reorder -x{-1-2| -U} -S []

用法:

bowtie2 [options]* -x {-1 -2 | -U } -S []

必须参数:

-x 由bowtie2-build所生成的索引文件的前缀。首先 在当前目录搜寻,然后在环境变

量 BOWTIE2_INDEXES 中制定的文件夹中搜寻。 -1 双末端测寻对应的文件1。可以为多个文

件,并用逗号分开;多个文件必须和 -2 中制定的文件一一对应。比如:"-1 flyA_,flyB_ -

2 flyA_,flyB _". 测序文件中的reads的长度可以不一样。 -2 双末端测寻对应的文件2.

-U 非双末端测寻对应的文件。可以为多个文件,并用逗号分开。测序文件中的reads的长度可以

不一样。 -S 所生成的SAM格式的文件前缀。默认是输入到标准输出。

以下是可选参数:

输入参数

-q 输入的文件为FASTQ格式文件,此项为默认值。 -qseq 输入的文件为QSEQ格式文件。 -f

输入的文件为FASTA格式文件。选择此项时,表示--ignore-quals也被选择了。 -r 输入的文件中,每

一行代表一条序列,没有序列名和测序质量等。选择此项时,表示-- ignore-quals也被选择了。 -c 后

直接为比对的reads序列,而不是包含序列的文件名。序列间用逗号隔开。选择此项时,表示—

ignore-quals也被选择了。 -s/--skip input的reads中,跳过前个reads或者pairs。 -

u/--qupto 只比对前个reads或者pairs(在跳过前个reads或者 pairs后)。

Default: no limit. -5/--trim5 剪掉5'端长度的碱基,再用于比对。(default: 0). -3/--

trim3 剪掉3'端长度的碱基,再用于比对。(default: 0). --phred33 输入的碱基质量等于

ASCII码值加上33. 在最近的illumina pipiline中得以运用。 --phred64 输入的碱基质量等于ASCII

码值加上64. --solexa-quals 将Solexa的碱基质量转换为Phred。在老的GA Pipeline版本中得以运

用。Default: off. --int-quals 输入文件中的碱基质量为用“ ”分隔的数值,而不是ASCII码。比如 40

40 。Default: off.

–end-to-end模式下的预设参数

--very-fast Same as: -D 5 -R 1 -N 0 -L 22 -i S,0,2.50 --fast Same as: -D 10 -R 2 -N 0 -L 22 -i

S,0,2.50 --sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode) --

very-sensitive Same as: -D 20 -R 3 -N 0 -L 20 -i S,1,0.50

–loca模式下的预设参数

–loca模式下的预设参数 --very-fast-local Same as: -D 5 -R 1 -N 0 -L 25 -i S,1,2.00 --fast-

local Same as: -D 10 -R 2 -N 0 -L 22 -i S,1,1.75 --sensitive-local Same as: -D 15 -R 2 -N 0 -L 20

-i S,1,0.75 (default in --local mode) --very-sensitive-local Same as: -D 20 -R 3 -N 0 -L 20 -i

S,1,0.50

比对参数:

-N 进行种子比对时允许的mismatch数. 可以设为0或者1. Default: 0. -L 设定种

子的长度. ************************************************************ 功能选项给bowtie的一些参

数设定值的时候,使用一个计算公式代替,于是值的大小与比对序列的长度成一定关系。有三

部分组成: (a)计算方法, 包括常数(C),线性(L),平方根(S)和自然对数(G); (b)一个常数; (c)一个系数. 例如:

为 L,-0.4,-0.6 则计算公式为: f(x) = -0.4 + -0.6 * x 为G,1,5.4 则计算公式为: f(x) =

1.0 + 5.4 * ln(x) ************************************************************ -i 设定两个相

邻种子间所间距的碱基数。 ************************************************************ 例如:如果

read的长度为30, 种子的长度为10, 相邻种子的间距为6,则提取出的种子如下所示: Read:

TAGCTACGCTCTACGCTATCATGCATAAAC Seed 1 fw: TAGCTACGCT Seed 1 rc: AGCGTAGCTA

Seed 2 fw: CGCTCTACGC Seed 2 rc: GCGTAGAGCG Seed 3 fw: ACGCTATCAT Seed 3 rc:

ATGATAGCGT Seed 4 fw: TCATGCATAA Seed 4 rc: TTATGCATGA

************************************************************ 在--end-to-end模式中默认值为”-i

S,1,1.15”.即表示f(x) = 1 + 1.15 * sqrt(x). 如果read长度为100, 则相邻种子的间距为12. --n-ceil

设定read中允许含有不确定碱基(非GTAC,通常为N)的最大数目. Default: L,0,0.15. 计算公式

为: f(x) = 0 + 0.15 * x, 表示长度为100的read 最多运行存在15个不确定碱基. 一旦不确定碱基数超

过15, 则该条read会被过滤掉. --dpad Default: 15. --gbar 在read头尾个碱基内

不允许gap. Default: 4. --ignore-quals 计算错配罚分的时候不考虑碱基质量. 当输入序列的模式为-f, -

r 或者-c的时候, 该设置自动成为默认设置. --nofw/--norc –nofw设定read不和前导链(forward

reference strand)进行比对; --norc设定不和后随链(reverse-complement reference strand)进行比

对. Default: both strands enabled. --end-to-end 比对是将整个read和参考序列进行比对. 该模式--

ma的值为0. 该模式为默认模式, --local模式冲突. --local 该模式下对read进行局部比对, 从而, read

两端的一些碱基不比对,从而使比对得分满足要求. 该模式下 –ma默认为2.

得分罚分参数

--ma 设定匹配得分. --local模式下每个read上碱基和参考序列上碱基匹配, 则加分.

在—end-to-end模式中无效. Default: 2. --mp MX,MN 设定错配罚分. 其中MX为所罚最高分, MN

为所罚最低分. 默认设置下罚分与碱基质量相关. 罚分遵循的公式为: MN + floor( (MX-MN)(MIN(Q,

40.0)/40.0) ). 其中Q为碱基的质量值. 如果设置了—ignore-qual参数, 则错配总是罚最高分. Default:

2024年3月10日发(作者:仝蕴美)

Bowtie2使用方法与参数详细介绍 - Public

Library of Bioinformatics

懒人必看

Bowtie2 -q --phred33 --sensitive --end-to-end -I 0 -X 500 --fr --un unpaired --al aligned

--un-conc unconc --al-conc alconc -p 6 --reorder -x{-1-2| -U} -S []

用法:

bowtie2 [options]* -x {-1 -2 | -U } -S []

必须参数:

-x 由bowtie2-build所生成的索引文件的前缀。首先 在当前目录搜寻,然后在环境变

量 BOWTIE2_INDEXES 中制定的文件夹中搜寻。 -1 双末端测寻对应的文件1。可以为多个文

件,并用逗号分开;多个文件必须和 -2 中制定的文件一一对应。比如:"-1 flyA_,flyB_ -

2 flyA_,flyB _". 测序文件中的reads的长度可以不一样。 -2 双末端测寻对应的文件2.

-U 非双末端测寻对应的文件。可以为多个文件,并用逗号分开。测序文件中的reads的长度可以

不一样。 -S 所生成的SAM格式的文件前缀。默认是输入到标准输出。

以下是可选参数:

输入参数

-q 输入的文件为FASTQ格式文件,此项为默认值。 -qseq 输入的文件为QSEQ格式文件。 -f

输入的文件为FASTA格式文件。选择此项时,表示--ignore-quals也被选择了。 -r 输入的文件中,每

一行代表一条序列,没有序列名和测序质量等。选择此项时,表示-- ignore-quals也被选择了。 -c 后

直接为比对的reads序列,而不是包含序列的文件名。序列间用逗号隔开。选择此项时,表示—

ignore-quals也被选择了。 -s/--skip input的reads中,跳过前个reads或者pairs。 -

u/--qupto 只比对前个reads或者pairs(在跳过前个reads或者 pairs后)。

Default: no limit. -5/--trim5 剪掉5'端长度的碱基,再用于比对。(default: 0). -3/--

trim3 剪掉3'端长度的碱基,再用于比对。(default: 0). --phred33 输入的碱基质量等于

ASCII码值加上33. 在最近的illumina pipiline中得以运用。 --phred64 输入的碱基质量等于ASCII

码值加上64. --solexa-quals 将Solexa的碱基质量转换为Phred。在老的GA Pipeline版本中得以运

用。Default: off. --int-quals 输入文件中的碱基质量为用“ ”分隔的数值,而不是ASCII码。比如 40

40 。Default: off.

–end-to-end模式下的预设参数

--very-fast Same as: -D 5 -R 1 -N 0 -L 22 -i S,0,2.50 --fast Same as: -D 10 -R 2 -N 0 -L 22 -i

S,0,2.50 --sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode) --

very-sensitive Same as: -D 20 -R 3 -N 0 -L 20 -i S,1,0.50

–loca模式下的预设参数

–loca模式下的预设参数 --very-fast-local Same as: -D 5 -R 1 -N 0 -L 25 -i S,1,2.00 --fast-

local Same as: -D 10 -R 2 -N 0 -L 22 -i S,1,1.75 --sensitive-local Same as: -D 15 -R 2 -N 0 -L 20

-i S,1,0.75 (default in --local mode) --very-sensitive-local Same as: -D 20 -R 3 -N 0 -L 20 -i

S,1,0.50

比对参数:

-N 进行种子比对时允许的mismatch数. 可以设为0或者1. Default: 0. -L 设定种

子的长度. ************************************************************ 功能选项给bowtie的一些参

数设定值的时候,使用一个计算公式代替,于是值的大小与比对序列的长度成一定关系。有三

部分组成: (a)计算方法, 包括常数(C),线性(L),平方根(S)和自然对数(G); (b)一个常数; (c)一个系数. 例如:

为 L,-0.4,-0.6 则计算公式为: f(x) = -0.4 + -0.6 * x 为G,1,5.4 则计算公式为: f(x) =

1.0 + 5.4 * ln(x) ************************************************************ -i 设定两个相

邻种子间所间距的碱基数。 ************************************************************ 例如:如果

read的长度为30, 种子的长度为10, 相邻种子的间距为6,则提取出的种子如下所示: Read:

TAGCTACGCTCTACGCTATCATGCATAAAC Seed 1 fw: TAGCTACGCT Seed 1 rc: AGCGTAGCTA

Seed 2 fw: CGCTCTACGC Seed 2 rc: GCGTAGAGCG Seed 3 fw: ACGCTATCAT Seed 3 rc:

ATGATAGCGT Seed 4 fw: TCATGCATAA Seed 4 rc: TTATGCATGA

************************************************************ 在--end-to-end模式中默认值为”-i

S,1,1.15”.即表示f(x) = 1 + 1.15 * sqrt(x). 如果read长度为100, 则相邻种子的间距为12. --n-ceil

设定read中允许含有不确定碱基(非GTAC,通常为N)的最大数目. Default: L,0,0.15. 计算公式

为: f(x) = 0 + 0.15 * x, 表示长度为100的read 最多运行存在15个不确定碱基. 一旦不确定碱基数超

过15, 则该条read会被过滤掉. --dpad Default: 15. --gbar 在read头尾个碱基内

不允许gap. Default: 4. --ignore-quals 计算错配罚分的时候不考虑碱基质量. 当输入序列的模式为-f, -

r 或者-c的时候, 该设置自动成为默认设置. --nofw/--norc –nofw设定read不和前导链(forward

reference strand)进行比对; --norc设定不和后随链(reverse-complement reference strand)进行比

对. Default: both strands enabled. --end-to-end 比对是将整个read和参考序列进行比对. 该模式--

ma的值为0. 该模式为默认模式, --local模式冲突. --local 该模式下对read进行局部比对, 从而, read

两端的一些碱基不比对,从而使比对得分满足要求. 该模式下 –ma默认为2.

得分罚分参数

--ma 设定匹配得分. --local模式下每个read上碱基和参考序列上碱基匹配, 则加分.

在—end-to-end模式中无效. Default: 2. --mp MX,MN 设定错配罚分. 其中MX为所罚最高分, MN

为所罚最低分. 默认设置下罚分与碱基质量相关. 罚分遵循的公式为: MN + floor( (MX-MN)(MIN(Q,

40.0)/40.0) ). 其中Q为碱基的质量值. 如果设置了—ignore-qual参数, 则错配总是罚最高分. Default:

发布评论

评论列表 (0)

  1. 暂无评论