2024年3月1日发(作者:褒籁)
MEGA软件的使用
Mega软件输入数据的格式
Mega软件输入数据的格式比拟简单,在众多遗传学分析软件中是比拟容易制作的一种。
首先,如果输入数据是一般的DNA或RNA序列,那么有如下要求:1〕文件扩展名以*.meg或*.txt结尾都行;2〕输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA〞;3〕“TITLE〞位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。在与“Title〞同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略。4〕在“#MEGA〞和“TITLE〞之后,在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5〕在每个数据〔或每条序列〕的名字之前应该有一个“#〞,名字的下一行是具体的序列。在同一个数据文件里,不能出现数据名相同的序列。在数据名及具体序列中,空格和TAB是被忽略的。6〕在同一数据文件内,所有序列的长度应该保持一致,否那么,程序不能执行。 7〕对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?〞表示,比对时的空缺位点可以用“—〞表示。下边是一个数据文件例如:
Fig
其次,如果输入数据是遗传距离矩阵,那么要求如下:1〕前4点要求同对上述DNA序列的要求相同;2〕在每个距离矩阵的名字之前应该有一个“#〞,每个名字占一行;先列出距离矩阵的名字,然后再给出距离矩阵;3〕距离矩阵有两种形式,下三角和上三角。下边是一个数据文件例如:
.
Fig
下列图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。
Fig
再次,如果数据是测序图谱的形式,直接导入即可。下列图是测序图谱例如:
.
Fig
MEGA界面及操作
Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。
1、数据的录入及编辑
Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据格式等等。而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。
首先,翻开Mega程序,有如下列图所示的操作界面:
.
Fig
单击工具栏中的“File〞按钮,会出现如下列图所示的菜单:
Fig
从上图可以看出,下拉菜单有“Open Data〞〔翻开数据〕、“Reopen Data〞〔翻开曾经翻开的数据,一般会保存新近翻开的几个数据〕、“Close Data〞〔关闭数据〕、“Export Data〞〔导出数据〕、“Conver To MEGA Format〞〔将数据转化为MEGA格式〕、“Text Editor〞〔数据文本编辑〕、“Printer Setup〞〔启动打印〕、“Exit〞〔退出MEGA程序〕。单击“Open Data〞选项,会弹出如下菜单:
.
Fig
浏览文件,选择要分析的数据翻开,单击“翻开〞按钮,会弹出如下操作界面:
Fig
此程序操作界面,提供了三种选择数据选择:Nucleotide Sequences〔核苷酸序列〕、Protein Sequences〔蛋白质序列〕、Pairwise Distance〔遗传距离矩阵〕。根据输入数据的类型,选择一种,点击“OK〞即可。如果选择“Pairwise Distance〞,那么操作界面有所不同;如下列图所示:
.
Fig
根据遗传距离矩阵的类型,如果是下三角矩阵,选择“Lower Left Matrix〞即可;如果是上三角矩阵,选择“Upper Right Matrix〞即可。点击“OK〞按钮,即可导入数据。如果是核苷酸数据,那么读完之后,会弹出如下对话框:
Fig
如上图,如果是编码蛋白质的核苷酸序列,那么选择“Yes〞按钮;如果是不编码蛋白质的核苷酸序列,那么点击“No〞按钮。之后,会弹出如下操作窗口:
.
Fig
此作界面的名称是“Sequence Data Explorer〞,在其最上方是工具栏“Data〞、“Display〞、“Highlight〞等,然后是一些数据处理方式的快捷按钮,在操作界面的左下方是每个序列的名称。显示序列占了操作界面的绝大局部,与第一个序列相同的核苷酸用“.〞表示,发生变异的序列那么直接显示。
如果在弹出的对话框中,点击“OK〞,即选择输入的数据是编码蛋白质的DNA序列。那么会再弹出如下对话框:
Fig
此操作界面提供了多种生物的遗传密码方式的选择,如Vertebrate
Mitochondrial〔脊椎动物线粒体〕、Invertebrate Mitochondrial〔非脊椎动物线粒体〕、Yeast Mitochondrial〔酵母线粒体〕等等。
点击此操作界面的“Add〞按钮,可以添加密码子表格,其编辑界面如下列图所示:
.
Fig
通过此操作界面可以创立、修改密码子表格。点击“OK〞按钮可以返回“Select Genetic Code〞操作界面。
点击“Select Genetic Code〞操作界面的“Delect〞按钮,可以删除一个密码子表。
点击“Select Genetic Code〞操作界面的“Edit〞按钮,可以对已经存在的密码子表格。其操作界面与“Genetic Code Table〞相同。
点击“Select Genetic Code〞操作界面的“View〞按钮,可以浏览选中的密码子表格。
点击“Select Genetic Code〞操作界面的“Statistics〞按钮,可以统计密码子表格的一些信息,如每种密码子的频率、同义位点数、非同义位点数等。
点击点击“Select Genetic Code〞操作界面的“OK〞按钮,会弹出如上图所示的“Sequence Data Explorer〞操作界面。如果点击“Cancel〞按钮,也会弹出此操作界面,但是此时会把数据默认为非编码的DNA序列。
单击“Sequence Data Explorer〞操作界面工具栏的“Data〞按钮,有如下列图所示的下拉菜单:
.
Fig
下拉菜单有六个选项:“Write Data To File〞〔将数据转到文件中,利用此选项可以把Mega数据格式的数据转化成其它格式〕、“Translate/Untranslate〞〔是否翻译,这个选项只有所分析的DNA序列是编码序列时才被激活〕、“Selcet
Genetic Code Table〞〔选择遗传密码表,这个选项只有所分析的DNA序列是编码序列时才被激活〕、“Setup/Selcet Genes&Domains〞〔选择或设置基因或结构域〕、“Setup/Select Taxa&Group〞〔对数据进行分组〕、“Quit Data Viewer〞〔退出此浏览框〕。
单击“Write Data To File〞选项,会弹出如下对话框:
Fig
.
Title框显示的内容是数据文件中“TITLE〞之后的内容。Description框显示的内容是数据文件中对整体数据描述的内容。
Format选项提供一个下来菜单,通过此下拉菜单可以把数据转化为MEGA格式、Nexus〔PAUP4.0〕格式,PHYLIP3.0格式、Nexus〔PAUP3.0/MacClade〕格式。
Writing site numbers 选项也提供一个下拉菜单,通过此下来菜单可以把给每个核苷酸标序号,“None〞为不显示序号,“For each site〞为每个位点显示序号,“At the end of line〞在每一行行末显示序号。
Missing Data and alignment gaps选项也提供了一个下拉式菜单,这个菜单包括:“Include sites with miss/ambiguous data gaps〞〔显示缺失位点及模糊位点以及空缺〕、“Exclude sites with miss/ambiguous data gaps〞〔不显示缺失位点及模糊位点以及空缺〕、“Exclude sites with miss/ambiguous data only〞 〔仅不显示缺失位点及模糊位点〕、“Exclude sites with alignment gaps only〞〔仅不显示比对是的空缺局部〕。
如上述操作界面中的选项,点击“OK〞按钮,会弹出如下界面:
Fig
此操作界面中的文字可以拷贝到文本文档中。如果在“Squence Data
Explorer〞 操作界面的工具栏中选择“Highlight〞中的“Varible sites〞选项,那么单击“Write Data To File〞选项,会弹出如下对话框:
.
Fig
我们会发现与上述“Exporting Sequence Data〞操作界面相比,在最下方增加了一个“Selceted sites to Include〞下拉菜单框,此框包含:All sites〔所有位点〕、“Only highlighted sites〞〔只显示相互之间有变异的位点〕、“Only unhighlighted
sites〞〔只显示相互之间无变异的位点〕三个选项。如上图中的操作界面中的选项,点击“OK〞按钮,那么会弹出如下对话框:
Fig
可以看出,在此操作界面中,仅显示了有变异的位点。这样的数据形式在转.
化成“NetWork〞遗传分析软件所需的数据格式时很方便。
单击“Sequence Data Explorer〞 操作界面的工具栏中“Data〞中的“Setup/Selcet Genes&Domains〞选项,会弹出如下对话框:
Fig
通过此操作界面可以检测、确定、选择结构域,为某些位点添加标签等。这个操作界面包括两大局部:“Define/Edit/Select〞和“Site Labels〞。通过操作界面中“Genes/Domain〞的子菜单“Data〞可以设置,起始位点和末位点。通过“Codon Start〞选项,可以选择编码的起始位置。在操作界面下端有一排按钮:“Add Gene〞、“Add Domain〞、“Delete/Edit〞、“Expand〞。通过“Add Gene〞按钮可以添加或插入一个新的基因,通过“Add Domain〞按钮可以添加或插入一个新的结构域,通过“Delete/Edit〞按钮可以对数据进行编辑和删除,通过“Expand〞可以展开数据,或仅显示第一水平的数据。
点击“Site Labels〞按钮,上述操作界面变为如下列图所示:
.
Fig
点击上述操作界面中的“Close〞按钮,返回“Sequence Data Explorer〞操作界面。选择工具栏“Data〞下拉菜单中的“Setup/Select Taxa&Groups〞选项,弹出如下列图所示操作界面:
Fig
如上图操作界面,点击“New Group〞按钮可以创立一个新的组,点击“Delete
Group〞按钮可以删除一个已经存在的组,在操作界面的中间竖排有五个按钮,.
同最上端两个按钮可以把数据移入或移出一个选定的组,点击第三个按钮可以对选定的组进行重新命名,点击“+〞按钮可以创立一个新的组,点击“—〞按钮可以删除一个已经存在的组。注意,组的名字不能与任何一个样本重名。点击“Close〞按钮,“Sequence Data Explorer〞操作界面。点击此操作界面中的“Display〞按钮,会弹出如下操作菜单:
Fig
从上述操作界面图看,下拉菜单共有:“Show Only Selected Sequences〞〔仅显示选中的序列〕、“Use Identical Symbol〞〔利用同一标记符号〕、“Color Cells〞〔色彩单元〕、“Sort Sequences〞〔序列分类〕、“Restore Input Order〞〔恢复输入序列的顺序〕、“Show Sequence Names〞〔显示序列名字〕、“Show Group
Names〞〔显示序列所在的组的名字〕和“Change Font〞〔改变字体〕八个选项。
选择“Show Only Selected Sequences〞选项,只有被选中的序列才会在界面中显示,不过软件默认的是所有输入的序列都是被选中的,不过软件使用者是可以修改哪些序列被选中。
选择“Use Identical Symbol〞选项,那么与第一个序列相同的核苷酸将用“.〞显示,与之相比,发生变异的核苷酸才以“A、T、C、G〞的形式显示。
选择“Color Cells〞选项,不同的核苷酸将用不同的颜色显示,如下列图所示。“Sort Sequences〞选项有四个子选项:“By Sequence Name〞〔通过序列名字排列〕、“By Group Name〞〔通过组的名字排列〕、“By Group&Sequence Name〞〔通过组和序列的名字排列〕、“As per Taxa&Group Organizer〞〔〕。
选择“Restore Input Order〞选项,那么序列排列顺序恢复到与输入数据文件中的顺序一样。
选择“Show Sequence Names〞选项,那么每个序列的名字被显示。选择“Show
Group Names〞,那么每个序列所在的组的名字将被显示。
选择“Change Font〞选项,可以改变序列名字、组名及其序列本身的字体大小及颜色,默认的字体大小是“小五〞,默认的字体颜色是黑色,默认的字型是.
常规,无下划线、删除线。
Fig
点击“Sequence Data Explorer〞操作界面的“Highlight〞选项,会有如下列图所示的下拉菜单项选择项:
Fig
.
由上图可以看出,“Highlight〞的下拉菜单共有七个选项:“Conserved Sites〞〔C,保守位点〕、“Variable sites〞〔V,变异位点〕、“Parsim-Info sites〞〔P,简约信息位点〕、“Singleton sites〞〔S,单独位点〕、“0-fold Degenerate sites〞〔0,未简并位点〕、“2-fold Degenerate sites〞〔2,2倍简并位点〕、“4- fold Degenerate
sites〞〔4,4倍简并位点〕;其中后三个选项,只有在输入的序列是编码序码时才被激活。
选择“Conserved Sites〞选项,所有的保守位点,即没有发生变异的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“Variable sites〞选项,所有的变异位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“Parsim-Info sites〞选项,所有简约变异位点〔即变异至少包括两种类型的核苷酸或氨基酸〕将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“Singleton sites〞选项,单突变〔变异至少包括两种类型的核苷酸或氨基酸,而且在所有样本中仅发生一次〕的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“0-fold Degenerate sites〞选项,那些所有突变都是非同义突变的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
选择“2- fold Degenerate sites〞选项,那些在所有突变中同义突变占1/3的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
选择“4- fold Degenerate sites〞选项,那些所有突变全部是同义突变的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
点击“Sequence Data Explorer〞操作界面的“Statistics〞选项,会有如下列图所示的下拉菜单项选择项:
.
Fig
从上图可以看出,此下拉菜单总共有六个选项:“Nucleotide Composition〞〔核苷酸组成〕、“Nucleotide Pair Frequence〞〔核苷酸配对频率〕、“Codon Usage〞〔密码子使用〕、“Amino Acid Composition〞〔氨基酸组成〕、“Use All Selected
Sites〞〔利用所有选择的位点〕、“Use Only Highlighted Sites〞〔仅利用突出显示的位点〕。
选择“Nucleotide Composition〞选项,可以计算得到,每条序列中A、T、C、G及U的百分含量,以及总的核苷酸个数,还可以得到整个数据中A、T、C、G及U的百分含量。如果数据是编码蛋白质的DNA序列,那么还可以得到每种核苷酸在密码子各个位置的比例。
选择“Nucleotide Pair Frequence〞选项,可以计算DNA序列中核苷酸配对的频率。这个选项有两个子菜单:“Directional〔16 Pairs〕〞和“Undirectional〔10
Pairs〕〞。一个是有方向性的,一个是没有的。
选择“Codon Usage〞选项,能够统计出每种密码子的使用频率。
选择“Amino Acid Composition〞选项,能够统计出每条序列中各种氨基酸的组成百分含量,以及总的氨基酸个数。还可以计算出整个数据中每种氨基酸的组成百分含量。此选项只有在输入数据是氨基酸的条件下才被激活。
选择“Use All Selected Sites〞选项,在计算统计时,可以利用所有被选中的位点。
选择“Use Only Highlighted Sites〞选项,在计算分析时,仅利用那些被突出显示的位点进行计算。
在菜单栏的下方是一些常用的快捷方式,如下列图示:
Fig
.
上图图标中,所对应的操作从左到右依次是:“Write Data To File〞〔将数据转到文件中〕、“Setup/Select Taxa&Group〞〔对数据进行分组〕、“Setup/Selcet
Genes&Domains〞〔选择或设置基因或结构域〕、“Use Identical Symbol〞〔利用同一标记符号〕、“Color〞〔进行色彩设置〕、“Conserved Sites〞〔C,保守位点〕、“Variable sites〞〔V,变异位点〕、“Parsim-Info sites〞〔P,简约信息位点〕、“Singleton sites〞〔S,单独位点〕、“0-fold Degenerate sites〞〔0,未简并位点〕、“2-fold Degenerate sites〞〔2,2倍简并位点〕、“4- fold Degenerate sites〞〔4,4倍简并位点〕、将核苷酸序列翻译为蛋白质序列。
点击“Sequence Data Explorer〞界面的“Data〞下拉菜单中的“Quit Data
Viewer〞选项,即可关闭此操作界面,返回到Mega操作的主界面。
2、遗传距离的计算
2.1 遗传距离模型的选择
点击Mega操作主界面的“Distances〞按钮,会弹出一个下拉菜单。如下列图所示:
Fig
从上图易知,此菜单包括如下选项:“Choose Model〞〔选择模型,即选择计算遗传距离的模型〕、“Compute Pairwise〞〔计算遗传配对差异〕、“Compute
Overall Mean〞〔计算包括所有样本在内的平均遗传距离〕、“Compute With Group
Means〞〔计算组内平均遗传距离〕、“Compute Between Groups Means〞〔计算组间平均遗传距离〕、“Compute Net Between Groups Means〞〔计算组间平均净遗传距离〕、“Compute Sequence Diversity〞〔计算序列分歧度〕。
“Compute Sequence Diversity〞选项包括四个子菜单:“Mean Diversity
Within Subpopulations〞〔亚群体内部平均序列多态性〕、“Mean Diversity for Entire
Population〞〔整个人群平均序列多态性〕、“Mean Interpopulaional Diversity〞〔群体内部平均序列多态性〕、“Coefficient of Differentiation〞〔遗传变异系数〕。
点击“Choose Model〞选项,会弹出如下操作界面:
.
Fig
从上述操作界面可以看出,通过此对话框可以选择计算遗传距离的模型等。
“Data Type〞显示数据的类型:Nucleotide〔Coding〕〔编码蛋白质的DNA序列〕、Nucleotide〔不编码蛋白质的DNA序列〕、Amino Acid〔氨基酸序列〕。
通过“Model〞选项可以选择,计算遗传距离的距离模型。点击“Model〞一行末端的按钮会弹出一选择栏。
Fig
如上图所示,对于非编码的核苷酸序列Mega程序提供了八种距离模型:“Number of Difference〞〔核苷酸差异数〕、“P-distance〞〔P距离模型〕、“Jukes-Cantor〞〔Jukes和Cantor距离模型〕、“Kimura 2-Parameter〞〔Kimura双参数模型〕、“Tajima-Nei〞〔Tajima和Nei距离模型〕、“Tamura 3-parameter〞〔Tamura 三参数模型〕、“Tamura-Nei〞〔Tamura和Nei距离模型〕、“LogDet〔Tamura kumar〕〞〔对数行列式距离模型〕。
对于编码的核苷酸序列,其遗传距离模型如下列图所示:
.
Fig
如上图所示,对于编码蛋白质的DNA序列,Mega程序提供了一下几种模型:“Nei-Gojobori Method〞,“Modified Nei-Gojobori Methoed〞、“Li-Wu-Luo
Method〞、“Pamilo-Bianchi-Li Method〞、“Kumar Method〞。其中Nei-Gojobori方法和修正的Nei-Gojobori方法都包含三种距离模型:“Number of Differences〞、“P-distance〞、“Jukes-Cantor〞。对于氨基酸序列,Mega所提供的遗传距离模型如下列图所示:
Fig
如上图所示,对于氨基酸序列,Mega程序提供了一下六种遗传距离模型:“Number of Differences〞〔氨基酸差异数〕、“P-distance〞〔P距离模型〕、“Poisson
Correction〞〔泊松校正距离模型〕、“Equal Input〞〔等量输入距离模型〕、“PAM
Matrix〔Dayhoff〕〞〔PAM距离矩阵模型〕、“JTT Matrix〔Jones-Taylor-Thornton〕〞〔JTT距离矩阵模型〕。
在“Analysis Preference〞操作界面中,“Pattern Among Lineages〞仅提供了一个选项:“Same〔Homogenous〕〞“,也就是说样本之间是有一定同源性的。“Rates among sites〞提供了两个选项:“Uniform Rates〞和“Different〔Gamma
Distributed〕〞。“Uniform Rates〞意味着所有序列的所有位点的进化速率是相同的。选择“Different〔Gamma Distributed〕〞,意味着序列位点之间的进化速率是不相同的,可以利用Gamma参数来校正,系统提供了四个数值可供选择:2.0、1.0、0.5、0.25;软件使用者也可以自行决定Gamma参数的大小。设置完毕后,在此界面中点击“OK〞按钮,即可返回Mega操作主界面。
选择主操作界面“Distance〞中的“Compute Pairwise〞选项,可以计算样本之间的遗传距离的大小,其操作界面如下列图所示:
.
Fig
从上述操作界面易知:
“Data Type〞显示数据的类型,图中为“Nucleotide〞。
“Analysis〞显示计算分分析的类型,图中为“Pairwise Distance Calculation〞〔配对差异距离计算〕。
“Compute〞显示所要运行的对象,又两个选项:“Distance only〞〔仅计算遗传距离〕和“〞〔计算遗传距离和其标准误〕。
“Include Sites〞显示利用哪些位点来计算,如果数据类型是不编码蛋白质的核苷酸序列,那么全部参与计算,如果是编码蛋白质的核苷酸序列,那么可以选择哪些位点〔如密码子的第2位等〕来参与运算。
“Substitution Model〞是替代的模型 ,在下边“Model〞中可以进行选择。
“Substitutions to Inclued〞选择哪些替代类型〔如下列图所示〕被用于运算,d选项将转换和颠换全部包括在内,s选项仅包括转换,v选项仅包括颠换,R为转换和颠换的比值,L为所有有效的普通位点的个数。
Fig
“Pattern among Lineages〞和“Rates among sites〞上文已有介绍,不再详述。
点击“Compute〞按钮,即可开始计算。其显示运算结果的界面如下列图所示:
.
Fig
上图是计算出的各个样本之间的遗传距离的矩阵。在最下端的状态栏,显示的是所利用的遗传距离模型,如图中所示:Nucleotide:Kimura 2-parameter。
“File〞按钮共有四个下拉菜单:“Show Input Data Title〞〔显示输入数据的标题〕、“Show Analysis Description〞〔显示分析信息的描述〕、“Export/Print
Distance〞〔输出或打印距离矩阵〕、“Quit viewer〞〔退出此操作界面〕。
“Display〞按钮共有四个下拉菜单:“Show Pair Name〞〔显示配对序列的名字〕、“Sort Sequence〞〔用何种方式对序列进行排序〕、“Show Names〞〔显示序列的名字〕、“Change Font〞〔改变字体〕。“Sort Sequence〞有两个选项:“Original〞〔按原先输入的顺序〕和“By Name〞〔通过序列的名字〕。
点击“Average〞按钮可以计算平均的遗传距离,此按钮提供了四个下拉菜单:“Overall〞〔所有样本之间的平均遗传距离〕、“Within Groups〞〔组内平均遗传距离〕、“Between Groups〞〔组间平均遗传距离〕、“Net Between Groups〞〔组间平均净遗传距离〕。
在上述按钮下方还有六个按钮,如下列图所示。
点击第一个按钮可以使数据以下三角矩阵的方式显示;点击第二个按钮可以使数据以上三角矩阵的方式显示;选中第三个按钮可以显示配对的序列的名字,点击第四个按钮,可以减少数据小数点后的位数;点击第五个按钮,可以增加数据小数点后的位数;拖动第六个按钮中的小竖条可以改变数据显示的宽度。
点击“File〞下拉菜单中的“Export/Print Distance〞选项,会弹出如下列图所示的对话框:
.
Fig
“Output Format〞选项可以确定输出数据的格式:“Publication〞〔一般格式〕和“Mega〞〔Mega格式,把此数据保存可直接由Mega程序翻开,进行构建系统发育书等遗传分析〕。
Decimal Places〔小数位的大小〕,“Max Entries per line〞〔每一行最多能显示的数据的个数〕。
通过“Matrix〞可以选择输出数据矩阵的方式:“Lower-left〞〔下三角矩阵〕和“Upper-right〞〔上三角矩阵〕。
点击“Print/Save Matrix〞按钮,可以输出数,会弹出如下列图所示的操作界面:
Fig
在上图中的数据和文字可以直接进行拷贝,粘贴到文本文档或Microsoft
Word文档中。在此操作界面中,首先显示数据文件的一些信息,如数据文件的.
标题、总的样本个数、核苷酸替代的距离模型等。然后是每个序列的名字,之后是序列之间的距离矩阵。将此距离矩阵保存,可以用Mega或其他系统发育分析软件来做系统树。
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Overall
Mean〞选项,可以计算所有序列的所有位点的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Within
Group Means〞选项,可以计算每个组组内的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute between
Group Means〞选项,可以计算分组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
.
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute net
between Group Means〞选项,可以计算分组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Mean Diversity Within Subpopulations〞,可以计算亚组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
.
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Mean Diversity for Entire Population〞,可以计算整个群体的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Mean InterPopulation Diversity〞,可以计算群体内部的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
.
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Coffient of Differentiation〞,可以计算群体的变异系数,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
3、系统发育树的构建及检验
Mega程序构建系统发育树的功能很强大。它提供了四种构建系统发育树,还包括一些检验程序。这四种构建分子系统树的方法为:Neighbor-Joining〔NJ,邻接法〕、Minimum Evolution〔ME,最小进化法〕、Maximum Parsimony〔MP,最大简约法〕、Unweighted Pair Group Method With Arithmetic Mean〔UPGMA,算术平均的不加权对群法〕。其中,NJ法和UPGMA法都属于距离法。
其操作界面如下列图所示:
.
Fig
3.1 系统发育树的构建
3.1 .1构建邻接树
邻接法是距离法构建系统发育的常用方法,此方法基于最小进化原理,而不使用优化标准。邻接法中一个重要概念就是“近邻〞。在谱系树上,如果两个分支之间只通过一个内部节点相连,那么这两个分支就被称为“近邻〞。完全解析出的进化树是通过对完全没有解析出的“星型〞进化树进行“分解〞得到的,分解的步骤是连续不断地在最接近〔实际上,是最孤立的〕的序列对中插入树枝,而保存进化树的终端。于是,最接近的序列对被稳固了,而“星型〞进化树被改善了,这个过程将不断重复。这种方法并不检验所有可能的拓扑结构,因此相对而言运算速度很快,也就是说,对于一个50个序列的进化树,只需要假设干秒甚至更少。
具体操作:输入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct
Phylogeny〞选项中的“Neighbor-Joining〔NJ〕〞,会弹出如下操作界面。
.
Fig
此操作界面可以显示数据的类型、计算分析的类型、构树的方法等等。
点击“Phylogeny Test and options〞后边的按钮,可以设置检验的类型: None〔不进行检验〕、“Bootstrap〞〔自展法检验〕、“Interior Branch Test〞〔内局部支检验〕。选择后两种检验方法,可以设置自展的次数等等。设置完毕后,点击下边有对号标记的按钮即可返回原操作界面。其操作界面如下列图所示:
Fig
点击“Model〞按钮,可以选择计算遗传距离所用的距离模型。其它按钮的解释和使用前边已有介绍,这里不作赘述。设置完毕后,点击“Compute〞按钮,即可开始计算分析。结果界面如下列图所示:
.
Fig
上图即是利用邻接法构建的系统发育树。
点击此操作界面中的“File〞按钮,会弹出一下拉菜单〔如下列图所示〕,此菜单包括八个选项:“Save Tree Session〞〔保存树文件,快捷方式为Ctrl+S〕、“Export Current Tree〞〔导出当前的谱系树〕、“Export All Trees〞〔导出所有的谱系树〕、“Show Information〞〔显示有关谱系树的一些信息〕、“Print〞〔打印〕、“Print in a sheet〞〔在一张纸中打印〕、“Printer setup〞〔启动打印机〕、“Exit Tree
Explorer〞〔退出此操作界面〕。
Fig
点击“Save Tree Session〞选项,可以将树文件保存,有关系统树的所有信息都被存储。
点击“Export Current Tree〞选项,可以将当前谱系导出,格式为Newick
.
Standard Files,简写为NWK。点击“Export All Trees〞选项,可以导出所有的谱系树。
点击“Show Information〞选项,可以显示有关系统树的一些信息,其操作窗口如下列图所示:
Fig
此操作界面会给出数据的类型、构树的方法、检验的方式及自展的次数、所采用的距离模型等信息。
点击“Information〞操作界面中的“Tree〞按钮,界面会显示系统树的类型〔有根树还是无根树〕、系统树分支的总长度等信息。
点击“Information〞操作界面中的“Tree〞按钮,界面会显示系统树的分支类型。
点击“Mega 3 Tree Explorer〞操作界面中的“Image〞按钮,会弹出一下拉菜单,此菜单包括三个选项:“Copy to Clipboard〞〔拷贝到剪切贴板〕、“Save as
Enhanced Metafile〔EMF〕〞〔以增强的图元文件形式保存〕、“Load Taxon Images
from a Folder〞〔从一个文件中载入分类图形〕。
Fig
点击“Copy to Clipboard〞选项,可以把当前系统树的形状拷贝到剪切贴板中,可以粘贴到Microsoft Word文章中,也可以粘贴到图形编辑软件中等。
点击“Save as Enhanced Metafile〔EMF〕〞选项,可以将系统树以增强的图元文件形式保存,EMF是图形格式的一种。
点击“Load Taxon Images from a Folder〞选项,可以从已经存在的文件中载.
入分类图形〔系统树〕。
点击“Mega 3 Tree Explorer〞操作界面中的“Subtree〞按钮,会弹出一下拉菜单,此菜单包括九个选项,通过这九个选项可以对已构建的系统发育树进行修改。这些选项如下列图所示:
Fig
点击“Root〞选项,可以选定一个分支作为系统树的根部。如果是有根树,其树根一般是一个外类群,是系统树中其它所有分支的姐妹群体。如果是无根树,那么其树根一般是遗传距离最长的两个分支的中部。
点击“Flip〞选项,可以选定一个内局部支,对本分支两旁的世系分支进行翻转。
点击“Swap〞选项,可以选定一个内局部支,对本分支两旁的亚系统树进行翻转,如果系统统树仅有一个群体,那么此选项与“Flip〞选项相同。
点击“Compress/Expand〞选项,可以选定一个内局部支,把分支后边包括的节点或亚系统树压缩为一个线条粗度比拟大的一个分支,其粗细程度与包括的类群的多少成正比。可以给这个新生成的分支起名字。如果选择此选项后,点击一个已经被压缩的分支,那么此分支会恢复到原来的形状,不过后边会有一个方括号附上压缩分支的名字。如下列图所示,一个是压缩的分支,一个是压缩后又伸展开的分支 :
.
Fig
点击“Draw Options〞选项,可以对亚系统树的显示方式进行调节。可以更改压缩分支的名字,线条的粗度、线条的颜色等。其操作界面如下列图所示:
.
Fig
如上图所示的操作界面,在Name/Caption选项中,可以编辑选定分支或节点的名字,点击“Font〞按钮可以修改名字的字体、大小、颜色等。通过Node/Subtree Marker选项可以为分支或节点选择一个图形来标记,通过“Color〞选项可以设定标记图形的颜色。通过“Branch Line〞选项,可以设定分支线条的颜色、粗细,显示风格等等。
点击上述操作界面的“Dispaly〞按钮,操作界面变为如下列图所示:
Fig
通过此“Subtree Draw Options〞操作界面,可以选择在系统树显示界面中哪些选项显示哪些选项不显示。如分支的名字、节点和分类的标记等等。
选中“Subtree〞下拉菜单中的“Use Subtree Draw Options〞选项,可以显示“Subtree Draw Options〞选项中所设定的内容,否那么不显示。
选中“Subtree〞下拉菜单中的“Use Group Draw Options〞选项,可以显示“Group Draw Options〞选项中所设定的内容,否那么不显示。
点击“Subtree〞下拉菜单中的“Divergence Time〞选项,可以对一个选定的节点设置分歧时间。其弹出的操作界面如下列图所示:
.
Fig
如上述操作界面,选定一个节点,在“Unit Label〞后边的矩形框中填入单元标记,在“Divergence Time〞 后边的矩形框中填入分歧时间,“Time Label〞 后边的矩形框中填入分歧时间标签的名字。点击“OK〞按钮,“Evolutionary Rate〞会自动计算出来,然后返回“Mega 3 Tree Explorer〞主操作界面。在系统树下边会增加一时间轴,如下列图所示:
Fig
点击“Subtree〞下拉菜单中的“Display in a window〞选项,可以选定系统树的一局部,在新窗口中放大显示。
点击“Mega 3 Tree Explorer〞操作界面中的“View〞按钮会弹出一个包括七个主选项的下拉菜单,通过此菜单可以对系统树的风格、样式、显示方式等进行设定,也可以设定系统树分支线条的粗细、颜色、系统树分支的名字、标记等。也可以对系统树进行一定程度上的修改。其下拉菜单的主选项,如下列图所示:
.
Fig
点击上述操作菜单中的“Topology only〞选项,可以显示分支之间的亲缘关系的远近,而不涉及各个分支的长度。系统树的形式如下列图所示:
Fig
点击“View〞菜单中的“Root On Midpoint〞选项,可以将系统树的树根确定到系统树中遗传距离最远的两个类群的路径的中间。
点击“View〞菜单中的“Arrange Taxa〞选项,会弹出两个子菜单:“For
Blanced Shape〞和“By Input Order〞。选择“For Blanced Shape〞选项,系统树以一种看似平衡的模式显示,选择“By Input Order〞选项,系统树类群尽量按照输入数据中的顺序显示。
点击“Viwe〞菜单中的“Tree/Branch Stytle〞选项,会弹出三个子菜单:“Traditional〞〔传统的〕、“Radation〞〔辐射状的〕、“Circle〞〔圆形的〕。“Traditional〞选项又有三个子菜单:“Rectangular〞〔矩形的〕、“Straight〞〔直线的〕、“Curved〞〔曲线的〕。
下边是这几种系统树显示方式的例如:
传统的矩形系统树:
.
Fig
传统的直线形系统树:
Fig
传统的曲线形系统树:
.
Fig
辐射形的系统树:
圆形的系统树〔摘自实验室已发表论文〕:
.
0.000
0.005
0.010
Fig
〔图中新疆古代察吾呼居民序列用(●)表示,在欧洲人群序列用(◆)表示,东亚人群序列用(▲)表示〕
点击“View〞菜单中的“Show/Hide〞选项,可以显示或隐藏某些选项。这些选项包括:“Taxon Label〞〔类群标签〕、“Taxon Marker〞〔类群标记〕、“Statistics/Frequency〞〔统计参数、频率,如每个分支的自展值等〕、“Branch
Lengths〞〔分支长度〕、“Scale Bar〞〔比例尺度条〕。
点击“View〞菜单中的“Fonts〞选项,弹出三个子菜单:“Taxon Name〞〔类群名字〕、“Branch Information〞〔分支相关信息〕、“Scale Bar〞 〔比例尺度条〕。通过此选可以修改这些信息的字体的大小、颜色、风格、类别等。
点击“View〞菜单中的“Options〞选项,可以修改和设定系统树显示的一些选项,其操作界面如下列图所示:
.
Fig
对此操作界面,点击“Tree〞按钮会显示如上图的操作界面,分别点击“Rectangular〞、“Circle〞、“Radiation Tree〞会显示不同的信息。此操作界面会显示系统树的分支长度、聚类起始类群、树的宽度,类群的别离等信息。
点击上述操作界面上端的“Branch〞按钮,操作界面变为如下列图所示:
.
Fig
通过上述操作界面可以设置,系统树分支线条的粗细。可以选择是否显示“Statistics/Frequency〞〔统计参数、频率,如每个分支的自展值等〕,以及这些数值在系统树上的位置〔如是置于系统树分支的下边还是上边等〕,以及距离节点的位置等,还可以设定如果这些统计参数小于某一值时不予显示〔通过“Hide
Values lower than〞后边的小方框设定〕。还可以选择是否显示“Branch Length〞〔分支长度〕,以及这些数值在系统树上的位置〔如是置于系统树分支的下边还是上边等〕,以及精确到小数点后多少位,还可以设定如果这些值小于某一值时不予显示〔通过“Hide if shorter than〞后边的方框设定〕。
点击上述操作界面上端的“Labels〞按钮,操作界面变为如下列图所示:
Fig
通过此操作界面可以设定是否显示各个类群的名字,以及设定这些名字字体的大小、风格、颜色等。还可以设定是否显示各个类群的标记,并可以为这些类群选择标记等,Mega大约提供了十种图形供我们选择,还可以通过“Color〞旁边的小矩形框为这些标记选定颜色。
点击上述操作界面上端的“Scale〞按钮,操作界面变为如下列图所示:
.
Fig
通过此操作界面可以选择,“Scale Bar〞〔比例尺度条〕分支线条的粗细,及其名字字体的大小、风格、颜色等。还
通过“Show Distance Scale〞选项,可以选择是否显示距离比例尺度,以及设定此尺度的名字,最大间隔与最小间隔等。
通过“Show Time Scale〞选项,可以选择是否显示分歧时间比例尺度,以及设定此尺度的名字,最大间隔与最小间隔等。
如下列图是设定之后的例如:
点击上述操作界面最上端的“Cutoff〞按钮,可以设定压缩树和一致性系统树的取舍点的值的大小。
点击“Mega 3 Tree Explorer〞操作界面的“Compute〞按钮会弹出一包括四个选择的下拉菜单。如下列图所示:
Fig
点击上述菜单中的“Condense Tree〞选项,可以计算压缩系统树,其意义在于,当系统树的内局部支的长度达不到统计学所学的值时,可以不考虑分支的长度,通过此命令做出系统树的拓扑结构。
.
点击上述菜单中的“Linearized Tree〞选项,可以构建线性的系统树,即具有分支分歧时间尺度的拓扑结构。
点击上述菜单中的“Consensus Tree〞选项,可以构建一致性系统树,此选项主要针对于MP〔最大简约法〕构建的系统树。因为利用最大简约法构建系统树时,很多时候会得到许多同样简约的系统,这时候要综合所有的系统树,用一致性指数去筛选合理的拓扑结构。
点击上述菜单中的“Calibrate MolClock〞选项,可以进行分子钟校正,其操作界面如下列图所示:
Fig
在上述操作界面的“Evolutionary Rate〞后的小矩形方框中,填入新的进化速率即可。
3.1 .2最小进化法构建系统发育树
最小进化方法〔ME,Minimum Evolution〕首先使用与Fitch-Margoliash法相同的方式计算出路径长度,然后根据路径长度优化出最短的进化树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化。ME方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误差,对内部的树枝长度进行优化。
最小进化法的理论根底是,当使用无偏的进化距离估计时,无论序列数目为多少,真实拓扑结构的预期值将会到达最小。这是一个很好的统计学特性,但是具有最小预期值的拓扑结构并不一定是真实拓扑结构的无偏估计。
当系统树分支比拟少的时候,ME树和NJ树通常很相似甚至相同;因此,当序列比拟多时,NJ树可以作为起始树。
导入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct Phylogeny〞选项中的“Minimum Evolution〔ME〕〞,即可构建系统发育树,其弹出的操作界面如下列图所示:
.
Fig
此操作界面与构建NJ树的界面很像,首先显示了计算分析操作的一些根本信息包括数据的类型、遗传距离模型的选取等。不同的是,多了一个“Search
Options〞选项,点击此选项的按钮可以激活“ME Tree Options〞操作界面,通过此操作界面可以设定构建最小进化系统树的一些计算分析参数。点击此操作界面最上端的“Test of Phylogeny〞按钮,可以进行系统树检验参数的设置,与构建NJ树一样,本操作界面也提供了两种检验方法:自展法和内局部支检验。这两种方法都基于自展重抽样理论,通过此界面可以设置自展的次数等。
“ME Tree Options〞的操作界面如下列图所示:
Fig
通过上述操作界面,可以设置保存的系统树的最大数目〔在“Maximum
Number of Trees To Retain〞后边的小矩形框中设置〕,可以设置CNI〔Close-Neighbor-Interchange〕法进行系统树搜索的水平,“Obtain by
Neighbor-Joining Method〞提示此系统树的构建在一定程度上借助NJ构树方法。
.
因为对于任何构树方法而言,要搜寻所有可能的拓扑结构都是相当耗时的,Mega程序所提供的最小进化法,通过先由NJ法提供一个暂时的拓扑结构,然后依赖拓扑距离来检验那些拓扑结构与此临时的系统树的差异而节省时间。经过屡次重复比拟之后,最有的系统树就会被搜寻到。这就是Close-Neighbor-Interchange〔相近邻接交换法〕存在的意义。
设置完毕后,点击带对号形状的按钮,返回到原操作界面,点击“Compute〞即可开始构建系统树。
3.1 .3最大简约法构建系统发育树
最大节约方法〔MP,Maximum Parsimony〕源于形态性状研究,是一种优化标准。这个标准遵循“奥卡姆剃刀原那么〔Occam’s razor〕〞:对数据最好的解释也是最简单的,因此所需要的特别假定也最少。在实际应用中,MP进化树是最短的,也是变化最少的进化树;根据定义,这个进化树的平行变化最少,或者说是同形性最低。
最大简约法应用于序列数据构建包括以下几个步骤:⑴确定所有的信息位点,⑵对所有可能的树型,计算每个信息位点上的发生核苷酸替代的最低次数,并对所有信息位点的最低替代数目求和,⑶选择核苷酸替代次数总和最小的树作为最简约谱系树。
为了能够包容取代偏好,MP一般需要加权;比方,颠换的变换相对于转换被加权。进行加权的最简单的方法就是建立一个加权步骤方阵,在这个方阵里,权重用速率的倒数,这个速率是可以由ML方法评估得到的。步骤方阵加权可能会极大地减慢MP的计算速度。
如果比对内部的位点确实存在这速率差异,那么MP方法就会执行得很不好。对于这个问题,还没有什么很好的解决方法。有一个方法,就是对数据集进行修改,使得最终分析的数据集中只包括那些内部差异性很小的位点,这些位点可以由似然分析方法判断得到的。更常见的情况是,MP分析只简单地屏蔽掉那些高度同形的可疑位点〔比方说,某些序列比对中的第三个编码位点〕。另外一个方法是根据引导树中所能观察到的位点变化倾向,对位点进行循环加权。
模拟研究已经说明,如果从世系分歧开始的序列进化的数量远大于世系别离的分歧数量〔比方,一个进化树中,终端的树枝很长,而内部节间的树枝很短〕,MP的效果比拟差。这种情况会造成“长树枝效应〞;长树枝可能会被人工连接,因为累积的非同源的相似性的数量超过了因为真实的相关性而保存的同源相似性的数量。在这种情况下,特征符加权会改善MP的执行效果。
MP方法的理论依据是建立在一个哲学理念之上。理论上说,如果每个核苷酸位点没有回复突变或平行突变,而且被检验的核苷酸数〔n〕非常大,那么MP方法能够获得正确的〔真实〕系统树。然而,实际上核苷酸序列通常会受回复突变或平行突变的影响,n也非常小。此外,如果核苷酸替代速率在进化谱系中变化很大的话,即使所研究的序列无限长,MP构树方法所产生的拓扑结构也会出现错误。
MP构树方法的优点在于:它不需要如距离法或似然法在处理核苷酸或氨基酸替代时所必需的假设。由于现行的诸多数学模型都是对核苷酸变异实际情况的粗略估计,因此,当序列分歧度比拟低的时候,无需模型的MP法可以获得比其他方法更可靠的系统树。计算机模拟说明:当⑴序列分歧度比拟低〔d≤0.1〕,⑵核苷酸替代速率相对稳定,⑶序列长度比拟大的情况下,MP法比其他方法更能获得可靠的拓扑结构。
.
导入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct Phylogeny〞选项中的“Maximum Parsimony〔MP〕〞,即可构建系统发育树,其弹出的操作界面如下列图所示:
Fig
此操作界面与构建NJ树的界面很像,首先显示了计算分析操作的一些根本信息包括数据的类型、构树方法的检验等。不同的是,多了一个“Search Options〞选项,点击此选项的按钮可以激活“MP Tree Serach Options〞操作界面,通过此操作界面可以设定用最大简约法构建系统树的一些计算分析参数。“Test of
Phylogeny〞的操作界面同其它方法相似,只是Mega程序没有提供针对此种构树方法的“Interior Branch Test〞〔内局部支检验〕。
“MP Tree Serach Options〞操作界面如下列图所示:
.
Fig
此操作界面提供了三种系统树搜索的方法;
“Max-Mini Branch-&-bound〞〔分支界限式搜索法〕:此方法从一个仅有有3个分类群的初始核心树〔无根树〕开始搜索MP树。剩余分类群以某种顺序逐一参加核心树,新树的长度在每个分类群参加时分别予以计算。如果核心树的一个特殊分支的分类群参加使树长超过预定树长的上限,那么这个拓扑结构及其后续拓扑结构以后不予考虑。当预定树长很接近真实MP树的树长时,许多树不必被检验,因此这个算法很节约时间。
“Min-Mini Heuristic Search〞〔启发式搜索法〕:Mega程序所提供的这个算法,在某种程度上跟分支界限式搜索法很像,这种方法也需要先建立一个临时树,然后逐步参加新的分支。在这个算法中,很多不可能具有短分支长度的树被删除掉,因此这个算法加速了检索到最优树的速度。但是,与分支界限式搜索法相比,此方法不一定能得到真实的最简约树。在此程序中,软件使用者可以控制搜索的范围,Mega软件使用户可以确定搜索上限的因子。在“Min-Mini Heuristic with
Search Fator of〞后边的小矩形框中,可以填入要确定的因子大小。
“Close-Neighbor-InterChange〔CNI〕〞临近互换算法,这个算法与ME算法中的很相似。对于任何构树方法而言,要搜寻所有可能的拓扑结构都是相当耗时的,由于计算能力的限制,现在一般只允许对很小一局部的可能的进化树进行搜索,具体的数目主要依赖于分类群的数量、优化标准。Mega程序所提供的临近互换算法,先由随机添加的一些序列构建一个暂时的拓扑结构,然后通过分支交换的方法进行搜索,从而寻得最简约的系统树。对于启发式搜索的因子数,使用者可以自己控制,在“Min-Mini Heuristic with Search Fator of〞后边的小矩形框中,填入需要的值即可。对于随机添加的树的重复次数,使用者也可以自己掌握,在“Random Addition Trees〞 后边的小矩形框中,填入需要的值即可。
设置搜索算法后,点击带对号形状的按钮,返回到原操作界面,点击“Compute〞即可开始构建系统树。
3.1 .4 UPGMA法构建系统发育树
不加权配对组算术方法〔UPGMA,unweighted pair group method with
arithmetic mean〕,又称算术平均的不加权对群法,也称类平均法,是目前广泛应用的最简单的一种建树方法。它按照配对序列的最大相似性和连接配对的平均值的标准将进化树的树枝连接起来。它不是一种严格的利用进化距离建树的方法。只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,才能期望UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构。但是,在实际问题中很少会遇到这种情况。
UPGMA法既能构建有根树,也能构建无根树;既能够构建拓扑结构,又能计算分支长度。当分歧程度不大时,尽管当基因替代率不稳定且所用基因或核苷酸数目较小时,经常会出现拓扑学误差,但UPGMA仍可用于构建系统树。
导入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct Phylogeny〞选项中的“Maximum Parsimony〔MP〕〞,即可构建系统发育树,其弹出的操作界面如下列图所示:
.
Fig
此操作界面与其他构建系统树的方法的界面很像,首先显示了计算分析操作的一些根本信息包括数据的类型、计算分析的类型、核苷酸替代的类型、构树方法的检验等。不同的是,在“Test of Phylogeny〞界面中没有提供“Interior Branch
Test〞〔内局部支检验〕这种检验方法。
点击“Compute〞按钮,即可开始构建系统树。
3.2 带自展检验的系统发育树的构建
Mega程序提供了四种带自展检验的构建系统发育树的方法〔如下列图示〕:Neighbor-Joining〔NJ,邻接法〕、Minimum Evolution〔ME,最小进化法〕、Maximum
Parsimony〔MP,最大简约法〕、Unweighted Pair Group Method With Arithmetic
Mean〔UPGMA,算术平均的不加权对群法〕。其操作与上述普通构建系统树的方法一样,不同的是,程序在构建系统树时默认添加了自展法进行检验。
.
Fig
3.3 带内局部支检验的系统发育树的构建
Mega程序提供了两种带自展检验的构建系统发育树的方法〔如下列图示〕:Neighbor-Joining〔NJ,邻接法〕、Minimum Evolution〔ME,最小进化法〕。其操作与上述普通构建系统树的方法一样,不同的是,程序在构建系统树时默认添加了内局部支检验法进行检验。
Fig
.
2024年3月1日发(作者:褒籁)
MEGA软件的使用
Mega软件输入数据的格式
Mega软件输入数据的格式比拟简单,在众多遗传学分析软件中是比拟容易制作的一种。
首先,如果输入数据是一般的DNA或RNA序列,那么有如下要求:1〕文件扩展名以*.meg或*.txt结尾都行;2〕输入数据文件,第一行必须有Mega程序所需的特殊标记“#MEGA〞;3〕“TITLE〞位于输入文件的第二行,后边可以跟上一些说明性字符,这些字符在输出结果中会显示出来。在与“Title〞同一行上的字符才有效,而且字符总数不能超过128,超过的也会被忽略。4〕在“#MEGA〞和“TITLE〞之后,在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5〕在每个数据〔或每条序列〕的名字之前应该有一个“#〞,名字的下一行是具体的序列。在同一个数据文件里,不能出现数据名相同的序列。在数据名及具体序列中,空格和TAB是被忽略的。6〕在同一数据文件内,所有序列的长度应该保持一致,否那么,程序不能执行。 7〕对于DNA或RNA序列,Mega软件能够识别A、T、C、G、U五种字符,缺失字符可以用“?〞表示,比对时的空缺位点可以用“—〞表示。下边是一个数据文件例如:
Fig
其次,如果输入数据是遗传距离矩阵,那么要求如下:1〕前4点要求同对上述DNA序列的要求相同;2〕在每个距离矩阵的名字之前应该有一个“#〞,每个名字占一行;先列出距离矩阵的名字,然后再给出距离矩阵;3〕距离矩阵有两种形式,下三角和上三角。下边是一个数据文件例如:
.
Fig
下列图是距离矩阵的示意图,左边是下三角矩阵,右边是上三角矩阵。
Fig
再次,如果数据是测序图谱的形式,直接导入即可。下列图是测序图谱例如:
.
Fig
MEGA界面及操作
Mega是一款操作十分简便的遗传学分析软件,其界面十分友好,即使初学者也很易上手。
1、数据的录入及编辑
Mega软件能够接受多种数据格式,如FASTA格式、Phylip格式、PAUP数据格式等等。而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。
首先,翻开Mega程序,有如下列图所示的操作界面:
.
Fig
单击工具栏中的“File〞按钮,会出现如下列图所示的菜单:
Fig
从上图可以看出,下拉菜单有“Open Data〞〔翻开数据〕、“Reopen Data〞〔翻开曾经翻开的数据,一般会保存新近翻开的几个数据〕、“Close Data〞〔关闭数据〕、“Export Data〞〔导出数据〕、“Conver To MEGA Format〞〔将数据转化为MEGA格式〕、“Text Editor〞〔数据文本编辑〕、“Printer Setup〞〔启动打印〕、“Exit〞〔退出MEGA程序〕。单击“Open Data〞选项,会弹出如下菜单:
.
Fig
浏览文件,选择要分析的数据翻开,单击“翻开〞按钮,会弹出如下操作界面:
Fig
此程序操作界面,提供了三种选择数据选择:Nucleotide Sequences〔核苷酸序列〕、Protein Sequences〔蛋白质序列〕、Pairwise Distance〔遗传距离矩阵〕。根据输入数据的类型,选择一种,点击“OK〞即可。如果选择“Pairwise Distance〞,那么操作界面有所不同;如下列图所示:
.
Fig
根据遗传距离矩阵的类型,如果是下三角矩阵,选择“Lower Left Matrix〞即可;如果是上三角矩阵,选择“Upper Right Matrix〞即可。点击“OK〞按钮,即可导入数据。如果是核苷酸数据,那么读完之后,会弹出如下对话框:
Fig
如上图,如果是编码蛋白质的核苷酸序列,那么选择“Yes〞按钮;如果是不编码蛋白质的核苷酸序列,那么点击“No〞按钮。之后,会弹出如下操作窗口:
.
Fig
此作界面的名称是“Sequence Data Explorer〞,在其最上方是工具栏“Data〞、“Display〞、“Highlight〞等,然后是一些数据处理方式的快捷按钮,在操作界面的左下方是每个序列的名称。显示序列占了操作界面的绝大局部,与第一个序列相同的核苷酸用“.〞表示,发生变异的序列那么直接显示。
如果在弹出的对话框中,点击“OK〞,即选择输入的数据是编码蛋白质的DNA序列。那么会再弹出如下对话框:
Fig
此操作界面提供了多种生物的遗传密码方式的选择,如Vertebrate
Mitochondrial〔脊椎动物线粒体〕、Invertebrate Mitochondrial〔非脊椎动物线粒体〕、Yeast Mitochondrial〔酵母线粒体〕等等。
点击此操作界面的“Add〞按钮,可以添加密码子表格,其编辑界面如下列图所示:
.
Fig
通过此操作界面可以创立、修改密码子表格。点击“OK〞按钮可以返回“Select Genetic Code〞操作界面。
点击“Select Genetic Code〞操作界面的“Delect〞按钮,可以删除一个密码子表。
点击“Select Genetic Code〞操作界面的“Edit〞按钮,可以对已经存在的密码子表格。其操作界面与“Genetic Code Table〞相同。
点击“Select Genetic Code〞操作界面的“View〞按钮,可以浏览选中的密码子表格。
点击“Select Genetic Code〞操作界面的“Statistics〞按钮,可以统计密码子表格的一些信息,如每种密码子的频率、同义位点数、非同义位点数等。
点击点击“Select Genetic Code〞操作界面的“OK〞按钮,会弹出如上图所示的“Sequence Data Explorer〞操作界面。如果点击“Cancel〞按钮,也会弹出此操作界面,但是此时会把数据默认为非编码的DNA序列。
单击“Sequence Data Explorer〞操作界面工具栏的“Data〞按钮,有如下列图所示的下拉菜单:
.
Fig
下拉菜单有六个选项:“Write Data To File〞〔将数据转到文件中,利用此选项可以把Mega数据格式的数据转化成其它格式〕、“Translate/Untranslate〞〔是否翻译,这个选项只有所分析的DNA序列是编码序列时才被激活〕、“Selcet
Genetic Code Table〞〔选择遗传密码表,这个选项只有所分析的DNA序列是编码序列时才被激活〕、“Setup/Selcet Genes&Domains〞〔选择或设置基因或结构域〕、“Setup/Select Taxa&Group〞〔对数据进行分组〕、“Quit Data Viewer〞〔退出此浏览框〕。
单击“Write Data To File〞选项,会弹出如下对话框:
Fig
.
Title框显示的内容是数据文件中“TITLE〞之后的内容。Description框显示的内容是数据文件中对整体数据描述的内容。
Format选项提供一个下来菜单,通过此下拉菜单可以把数据转化为MEGA格式、Nexus〔PAUP4.0〕格式,PHYLIP3.0格式、Nexus〔PAUP3.0/MacClade〕格式。
Writing site numbers 选项也提供一个下拉菜单,通过此下来菜单可以把给每个核苷酸标序号,“None〞为不显示序号,“For each site〞为每个位点显示序号,“At the end of line〞在每一行行末显示序号。
Missing Data and alignment gaps选项也提供了一个下拉式菜单,这个菜单包括:“Include sites with miss/ambiguous data gaps〞〔显示缺失位点及模糊位点以及空缺〕、“Exclude sites with miss/ambiguous data gaps〞〔不显示缺失位点及模糊位点以及空缺〕、“Exclude sites with miss/ambiguous data only〞 〔仅不显示缺失位点及模糊位点〕、“Exclude sites with alignment gaps only〞〔仅不显示比对是的空缺局部〕。
如上述操作界面中的选项,点击“OK〞按钮,会弹出如下界面:
Fig
此操作界面中的文字可以拷贝到文本文档中。如果在“Squence Data
Explorer〞 操作界面的工具栏中选择“Highlight〞中的“Varible sites〞选项,那么单击“Write Data To File〞选项,会弹出如下对话框:
.
Fig
我们会发现与上述“Exporting Sequence Data〞操作界面相比,在最下方增加了一个“Selceted sites to Include〞下拉菜单框,此框包含:All sites〔所有位点〕、“Only highlighted sites〞〔只显示相互之间有变异的位点〕、“Only unhighlighted
sites〞〔只显示相互之间无变异的位点〕三个选项。如上图中的操作界面中的选项,点击“OK〞按钮,那么会弹出如下对话框:
Fig
可以看出,在此操作界面中,仅显示了有变异的位点。这样的数据形式在转.
化成“NetWork〞遗传分析软件所需的数据格式时很方便。
单击“Sequence Data Explorer〞 操作界面的工具栏中“Data〞中的“Setup/Selcet Genes&Domains〞选项,会弹出如下对话框:
Fig
通过此操作界面可以检测、确定、选择结构域,为某些位点添加标签等。这个操作界面包括两大局部:“Define/Edit/Select〞和“Site Labels〞。通过操作界面中“Genes/Domain〞的子菜单“Data〞可以设置,起始位点和末位点。通过“Codon Start〞选项,可以选择编码的起始位置。在操作界面下端有一排按钮:“Add Gene〞、“Add Domain〞、“Delete/Edit〞、“Expand〞。通过“Add Gene〞按钮可以添加或插入一个新的基因,通过“Add Domain〞按钮可以添加或插入一个新的结构域,通过“Delete/Edit〞按钮可以对数据进行编辑和删除,通过“Expand〞可以展开数据,或仅显示第一水平的数据。
点击“Site Labels〞按钮,上述操作界面变为如下列图所示:
.
Fig
点击上述操作界面中的“Close〞按钮,返回“Sequence Data Explorer〞操作界面。选择工具栏“Data〞下拉菜单中的“Setup/Select Taxa&Groups〞选项,弹出如下列图所示操作界面:
Fig
如上图操作界面,点击“New Group〞按钮可以创立一个新的组,点击“Delete
Group〞按钮可以删除一个已经存在的组,在操作界面的中间竖排有五个按钮,.
同最上端两个按钮可以把数据移入或移出一个选定的组,点击第三个按钮可以对选定的组进行重新命名,点击“+〞按钮可以创立一个新的组,点击“—〞按钮可以删除一个已经存在的组。注意,组的名字不能与任何一个样本重名。点击“Close〞按钮,“Sequence Data Explorer〞操作界面。点击此操作界面中的“Display〞按钮,会弹出如下操作菜单:
Fig
从上述操作界面图看,下拉菜单共有:“Show Only Selected Sequences〞〔仅显示选中的序列〕、“Use Identical Symbol〞〔利用同一标记符号〕、“Color Cells〞〔色彩单元〕、“Sort Sequences〞〔序列分类〕、“Restore Input Order〞〔恢复输入序列的顺序〕、“Show Sequence Names〞〔显示序列名字〕、“Show Group
Names〞〔显示序列所在的组的名字〕和“Change Font〞〔改变字体〕八个选项。
选择“Show Only Selected Sequences〞选项,只有被选中的序列才会在界面中显示,不过软件默认的是所有输入的序列都是被选中的,不过软件使用者是可以修改哪些序列被选中。
选择“Use Identical Symbol〞选项,那么与第一个序列相同的核苷酸将用“.〞显示,与之相比,发生变异的核苷酸才以“A、T、C、G〞的形式显示。
选择“Color Cells〞选项,不同的核苷酸将用不同的颜色显示,如下列图所示。“Sort Sequences〞选项有四个子选项:“By Sequence Name〞〔通过序列名字排列〕、“By Group Name〞〔通过组的名字排列〕、“By Group&Sequence Name〞〔通过组和序列的名字排列〕、“As per Taxa&Group Organizer〞〔〕。
选择“Restore Input Order〞选项,那么序列排列顺序恢复到与输入数据文件中的顺序一样。
选择“Show Sequence Names〞选项,那么每个序列的名字被显示。选择“Show
Group Names〞,那么每个序列所在的组的名字将被显示。
选择“Change Font〞选项,可以改变序列名字、组名及其序列本身的字体大小及颜色,默认的字体大小是“小五〞,默认的字体颜色是黑色,默认的字型是.
常规,无下划线、删除线。
Fig
点击“Sequence Data Explorer〞操作界面的“Highlight〞选项,会有如下列图所示的下拉菜单项选择项:
Fig
.
由上图可以看出,“Highlight〞的下拉菜单共有七个选项:“Conserved Sites〞〔C,保守位点〕、“Variable sites〞〔V,变异位点〕、“Parsim-Info sites〞〔P,简约信息位点〕、“Singleton sites〞〔S,单独位点〕、“0-fold Degenerate sites〞〔0,未简并位点〕、“2-fold Degenerate sites〞〔2,2倍简并位点〕、“4- fold Degenerate
sites〞〔4,4倍简并位点〕;其中后三个选项,只有在输入的序列是编码序码时才被激活。
选择“Conserved Sites〞选项,所有的保守位点,即没有发生变异的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“Variable sites〞选项,所有的变异位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“Parsim-Info sites〞选项,所有简约变异位点〔即变异至少包括两种类型的核苷酸或氨基酸〕将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“Singleton sites〞选项,单突变〔变异至少包括两种类型的核苷酸或氨基酸,而且在所有样本中仅发生一次〕的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。
选择“0-fold Degenerate sites〞选项,那些所有突变都是非同义突变的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
选择“2- fold Degenerate sites〞选项,那些在所有突变中同义突变占1/3的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
选择“4- fold Degenerate sites〞选项,那些所有突变全部是同义突变的位点,将被突出显示,位点的总数目将在状态栏〔操作界面最下端〕显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。
点击“Sequence Data Explorer〞操作界面的“Statistics〞选项,会有如下列图所示的下拉菜单项选择项:
.
Fig
从上图可以看出,此下拉菜单总共有六个选项:“Nucleotide Composition〞〔核苷酸组成〕、“Nucleotide Pair Frequence〞〔核苷酸配对频率〕、“Codon Usage〞〔密码子使用〕、“Amino Acid Composition〞〔氨基酸组成〕、“Use All Selected
Sites〞〔利用所有选择的位点〕、“Use Only Highlighted Sites〞〔仅利用突出显示的位点〕。
选择“Nucleotide Composition〞选项,可以计算得到,每条序列中A、T、C、G及U的百分含量,以及总的核苷酸个数,还可以得到整个数据中A、T、C、G及U的百分含量。如果数据是编码蛋白质的DNA序列,那么还可以得到每种核苷酸在密码子各个位置的比例。
选择“Nucleotide Pair Frequence〞选项,可以计算DNA序列中核苷酸配对的频率。这个选项有两个子菜单:“Directional〔16 Pairs〕〞和“Undirectional〔10
Pairs〕〞。一个是有方向性的,一个是没有的。
选择“Codon Usage〞选项,能够统计出每种密码子的使用频率。
选择“Amino Acid Composition〞选项,能够统计出每条序列中各种氨基酸的组成百分含量,以及总的氨基酸个数。还可以计算出整个数据中每种氨基酸的组成百分含量。此选项只有在输入数据是氨基酸的条件下才被激活。
选择“Use All Selected Sites〞选项,在计算统计时,可以利用所有被选中的位点。
选择“Use Only Highlighted Sites〞选项,在计算分析时,仅利用那些被突出显示的位点进行计算。
在菜单栏的下方是一些常用的快捷方式,如下列图示:
Fig
.
上图图标中,所对应的操作从左到右依次是:“Write Data To File〞〔将数据转到文件中〕、“Setup/Select Taxa&Group〞〔对数据进行分组〕、“Setup/Selcet
Genes&Domains〞〔选择或设置基因或结构域〕、“Use Identical Symbol〞〔利用同一标记符号〕、“Color〞〔进行色彩设置〕、“Conserved Sites〞〔C,保守位点〕、“Variable sites〞〔V,变异位点〕、“Parsim-Info sites〞〔P,简约信息位点〕、“Singleton sites〞〔S,单独位点〕、“0-fold Degenerate sites〞〔0,未简并位点〕、“2-fold Degenerate sites〞〔2,2倍简并位点〕、“4- fold Degenerate sites〞〔4,4倍简并位点〕、将核苷酸序列翻译为蛋白质序列。
点击“Sequence Data Explorer〞界面的“Data〞下拉菜单中的“Quit Data
Viewer〞选项,即可关闭此操作界面,返回到Mega操作的主界面。
2、遗传距离的计算
2.1 遗传距离模型的选择
点击Mega操作主界面的“Distances〞按钮,会弹出一个下拉菜单。如下列图所示:
Fig
从上图易知,此菜单包括如下选项:“Choose Model〞〔选择模型,即选择计算遗传距离的模型〕、“Compute Pairwise〞〔计算遗传配对差异〕、“Compute
Overall Mean〞〔计算包括所有样本在内的平均遗传距离〕、“Compute With Group
Means〞〔计算组内平均遗传距离〕、“Compute Between Groups Means〞〔计算组间平均遗传距离〕、“Compute Net Between Groups Means〞〔计算组间平均净遗传距离〕、“Compute Sequence Diversity〞〔计算序列分歧度〕。
“Compute Sequence Diversity〞选项包括四个子菜单:“Mean Diversity
Within Subpopulations〞〔亚群体内部平均序列多态性〕、“Mean Diversity for Entire
Population〞〔整个人群平均序列多态性〕、“Mean Interpopulaional Diversity〞〔群体内部平均序列多态性〕、“Coefficient of Differentiation〞〔遗传变异系数〕。
点击“Choose Model〞选项,会弹出如下操作界面:
.
Fig
从上述操作界面可以看出,通过此对话框可以选择计算遗传距离的模型等。
“Data Type〞显示数据的类型:Nucleotide〔Coding〕〔编码蛋白质的DNA序列〕、Nucleotide〔不编码蛋白质的DNA序列〕、Amino Acid〔氨基酸序列〕。
通过“Model〞选项可以选择,计算遗传距离的距离模型。点击“Model〞一行末端的按钮会弹出一选择栏。
Fig
如上图所示,对于非编码的核苷酸序列Mega程序提供了八种距离模型:“Number of Difference〞〔核苷酸差异数〕、“P-distance〞〔P距离模型〕、“Jukes-Cantor〞〔Jukes和Cantor距离模型〕、“Kimura 2-Parameter〞〔Kimura双参数模型〕、“Tajima-Nei〞〔Tajima和Nei距离模型〕、“Tamura 3-parameter〞〔Tamura 三参数模型〕、“Tamura-Nei〞〔Tamura和Nei距离模型〕、“LogDet〔Tamura kumar〕〞〔对数行列式距离模型〕。
对于编码的核苷酸序列,其遗传距离模型如下列图所示:
.
Fig
如上图所示,对于编码蛋白质的DNA序列,Mega程序提供了一下几种模型:“Nei-Gojobori Method〞,“Modified Nei-Gojobori Methoed〞、“Li-Wu-Luo
Method〞、“Pamilo-Bianchi-Li Method〞、“Kumar Method〞。其中Nei-Gojobori方法和修正的Nei-Gojobori方法都包含三种距离模型:“Number of Differences〞、“P-distance〞、“Jukes-Cantor〞。对于氨基酸序列,Mega所提供的遗传距离模型如下列图所示:
Fig
如上图所示,对于氨基酸序列,Mega程序提供了一下六种遗传距离模型:“Number of Differences〞〔氨基酸差异数〕、“P-distance〞〔P距离模型〕、“Poisson
Correction〞〔泊松校正距离模型〕、“Equal Input〞〔等量输入距离模型〕、“PAM
Matrix〔Dayhoff〕〞〔PAM距离矩阵模型〕、“JTT Matrix〔Jones-Taylor-Thornton〕〞〔JTT距离矩阵模型〕。
在“Analysis Preference〞操作界面中,“Pattern Among Lineages〞仅提供了一个选项:“Same〔Homogenous〕〞“,也就是说样本之间是有一定同源性的。“Rates among sites〞提供了两个选项:“Uniform Rates〞和“Different〔Gamma
Distributed〕〞。“Uniform Rates〞意味着所有序列的所有位点的进化速率是相同的。选择“Different〔Gamma Distributed〕〞,意味着序列位点之间的进化速率是不相同的,可以利用Gamma参数来校正,系统提供了四个数值可供选择:2.0、1.0、0.5、0.25;软件使用者也可以自行决定Gamma参数的大小。设置完毕后,在此界面中点击“OK〞按钮,即可返回Mega操作主界面。
选择主操作界面“Distance〞中的“Compute Pairwise〞选项,可以计算样本之间的遗传距离的大小,其操作界面如下列图所示:
.
Fig
从上述操作界面易知:
“Data Type〞显示数据的类型,图中为“Nucleotide〞。
“Analysis〞显示计算分分析的类型,图中为“Pairwise Distance Calculation〞〔配对差异距离计算〕。
“Compute〞显示所要运行的对象,又两个选项:“Distance only〞〔仅计算遗传距离〕和“〞〔计算遗传距离和其标准误〕。
“Include Sites〞显示利用哪些位点来计算,如果数据类型是不编码蛋白质的核苷酸序列,那么全部参与计算,如果是编码蛋白质的核苷酸序列,那么可以选择哪些位点〔如密码子的第2位等〕来参与运算。
“Substitution Model〞是替代的模型 ,在下边“Model〞中可以进行选择。
“Substitutions to Inclued〞选择哪些替代类型〔如下列图所示〕被用于运算,d选项将转换和颠换全部包括在内,s选项仅包括转换,v选项仅包括颠换,R为转换和颠换的比值,L为所有有效的普通位点的个数。
Fig
“Pattern among Lineages〞和“Rates among sites〞上文已有介绍,不再详述。
点击“Compute〞按钮,即可开始计算。其显示运算结果的界面如下列图所示:
.
Fig
上图是计算出的各个样本之间的遗传距离的矩阵。在最下端的状态栏,显示的是所利用的遗传距离模型,如图中所示:Nucleotide:Kimura 2-parameter。
“File〞按钮共有四个下拉菜单:“Show Input Data Title〞〔显示输入数据的标题〕、“Show Analysis Description〞〔显示分析信息的描述〕、“Export/Print
Distance〞〔输出或打印距离矩阵〕、“Quit viewer〞〔退出此操作界面〕。
“Display〞按钮共有四个下拉菜单:“Show Pair Name〞〔显示配对序列的名字〕、“Sort Sequence〞〔用何种方式对序列进行排序〕、“Show Names〞〔显示序列的名字〕、“Change Font〞〔改变字体〕。“Sort Sequence〞有两个选项:“Original〞〔按原先输入的顺序〕和“By Name〞〔通过序列的名字〕。
点击“Average〞按钮可以计算平均的遗传距离,此按钮提供了四个下拉菜单:“Overall〞〔所有样本之间的平均遗传距离〕、“Within Groups〞〔组内平均遗传距离〕、“Between Groups〞〔组间平均遗传距离〕、“Net Between Groups〞〔组间平均净遗传距离〕。
在上述按钮下方还有六个按钮,如下列图所示。
点击第一个按钮可以使数据以下三角矩阵的方式显示;点击第二个按钮可以使数据以上三角矩阵的方式显示;选中第三个按钮可以显示配对的序列的名字,点击第四个按钮,可以减少数据小数点后的位数;点击第五个按钮,可以增加数据小数点后的位数;拖动第六个按钮中的小竖条可以改变数据显示的宽度。
点击“File〞下拉菜单中的“Export/Print Distance〞选项,会弹出如下列图所示的对话框:
.
Fig
“Output Format〞选项可以确定输出数据的格式:“Publication〞〔一般格式〕和“Mega〞〔Mega格式,把此数据保存可直接由Mega程序翻开,进行构建系统发育书等遗传分析〕。
Decimal Places〔小数位的大小〕,“Max Entries per line〞〔每一行最多能显示的数据的个数〕。
通过“Matrix〞可以选择输出数据矩阵的方式:“Lower-left〞〔下三角矩阵〕和“Upper-right〞〔上三角矩阵〕。
点击“Print/Save Matrix〞按钮,可以输出数,会弹出如下列图所示的操作界面:
Fig
在上图中的数据和文字可以直接进行拷贝,粘贴到文本文档或Microsoft
Word文档中。在此操作界面中,首先显示数据文件的一些信息,如数据文件的.
标题、总的样本个数、核苷酸替代的距离模型等。然后是每个序列的名字,之后是序列之间的距离矩阵。将此距离矩阵保存,可以用Mega或其他系统发育分析软件来做系统树。
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Overall
Mean〞选项,可以计算所有序列的所有位点的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Within
Group Means〞选项,可以计算每个组组内的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute between
Group Means〞选项,可以计算分组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
.
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute net
between Group Means〞选项,可以计算分组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Mean Diversity Within Subpopulations〞,可以计算亚组之间的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
.
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Mean Diversity for Entire Population〞,可以计算整个群体的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Mean InterPopulation Diversity〞,可以计算群体内部的平均遗传距离,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
.
Fig
点击Mega软件操作主界面的“Distances〞下拉菜单中的“Compute Sequence
Diversity〞选项中的“Coffient of Differentiation〞,可以计算群体的变异系数,其操作方法和界面同“Compute Pairwise〞相仿。其运算结果如下列图所示:
Fig
3、系统发育树的构建及检验
Mega程序构建系统发育树的功能很强大。它提供了四种构建系统发育树,还包括一些检验程序。这四种构建分子系统树的方法为:Neighbor-Joining〔NJ,邻接法〕、Minimum Evolution〔ME,最小进化法〕、Maximum Parsimony〔MP,最大简约法〕、Unweighted Pair Group Method With Arithmetic Mean〔UPGMA,算术平均的不加权对群法〕。其中,NJ法和UPGMA法都属于距离法。
其操作界面如下列图所示:
.
Fig
3.1 系统发育树的构建
3.1 .1构建邻接树
邻接法是距离法构建系统发育的常用方法,此方法基于最小进化原理,而不使用优化标准。邻接法中一个重要概念就是“近邻〞。在谱系树上,如果两个分支之间只通过一个内部节点相连,那么这两个分支就被称为“近邻〞。完全解析出的进化树是通过对完全没有解析出的“星型〞进化树进行“分解〞得到的,分解的步骤是连续不断地在最接近〔实际上,是最孤立的〕的序列对中插入树枝,而保存进化树的终端。于是,最接近的序列对被稳固了,而“星型〞进化树被改善了,这个过程将不断重复。这种方法并不检验所有可能的拓扑结构,因此相对而言运算速度很快,也就是说,对于一个50个序列的进化树,只需要假设干秒甚至更少。
具体操作:输入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct
Phylogeny〞选项中的“Neighbor-Joining〔NJ〕〞,会弹出如下操作界面。
.
Fig
此操作界面可以显示数据的类型、计算分析的类型、构树的方法等等。
点击“Phylogeny Test and options〞后边的按钮,可以设置检验的类型: None〔不进行检验〕、“Bootstrap〞〔自展法检验〕、“Interior Branch Test〞〔内局部支检验〕。选择后两种检验方法,可以设置自展的次数等等。设置完毕后,点击下边有对号标记的按钮即可返回原操作界面。其操作界面如下列图所示:
Fig
点击“Model〞按钮,可以选择计算遗传距离所用的距离模型。其它按钮的解释和使用前边已有介绍,这里不作赘述。设置完毕后,点击“Compute〞按钮,即可开始计算分析。结果界面如下列图所示:
.
Fig
上图即是利用邻接法构建的系统发育树。
点击此操作界面中的“File〞按钮,会弹出一下拉菜单〔如下列图所示〕,此菜单包括八个选项:“Save Tree Session〞〔保存树文件,快捷方式为Ctrl+S〕、“Export Current Tree〞〔导出当前的谱系树〕、“Export All Trees〞〔导出所有的谱系树〕、“Show Information〞〔显示有关谱系树的一些信息〕、“Print〞〔打印〕、“Print in a sheet〞〔在一张纸中打印〕、“Printer setup〞〔启动打印机〕、“Exit Tree
Explorer〞〔退出此操作界面〕。
Fig
点击“Save Tree Session〞选项,可以将树文件保存,有关系统树的所有信息都被存储。
点击“Export Current Tree〞选项,可以将当前谱系导出,格式为Newick
.
Standard Files,简写为NWK。点击“Export All Trees〞选项,可以导出所有的谱系树。
点击“Show Information〞选项,可以显示有关系统树的一些信息,其操作窗口如下列图所示:
Fig
此操作界面会给出数据的类型、构树的方法、检验的方式及自展的次数、所采用的距离模型等信息。
点击“Information〞操作界面中的“Tree〞按钮,界面会显示系统树的类型〔有根树还是无根树〕、系统树分支的总长度等信息。
点击“Information〞操作界面中的“Tree〞按钮,界面会显示系统树的分支类型。
点击“Mega 3 Tree Explorer〞操作界面中的“Image〞按钮,会弹出一下拉菜单,此菜单包括三个选项:“Copy to Clipboard〞〔拷贝到剪切贴板〕、“Save as
Enhanced Metafile〔EMF〕〞〔以增强的图元文件形式保存〕、“Load Taxon Images
from a Folder〞〔从一个文件中载入分类图形〕。
Fig
点击“Copy to Clipboard〞选项,可以把当前系统树的形状拷贝到剪切贴板中,可以粘贴到Microsoft Word文章中,也可以粘贴到图形编辑软件中等。
点击“Save as Enhanced Metafile〔EMF〕〞选项,可以将系统树以增强的图元文件形式保存,EMF是图形格式的一种。
点击“Load Taxon Images from a Folder〞选项,可以从已经存在的文件中载.
入分类图形〔系统树〕。
点击“Mega 3 Tree Explorer〞操作界面中的“Subtree〞按钮,会弹出一下拉菜单,此菜单包括九个选项,通过这九个选项可以对已构建的系统发育树进行修改。这些选项如下列图所示:
Fig
点击“Root〞选项,可以选定一个分支作为系统树的根部。如果是有根树,其树根一般是一个外类群,是系统树中其它所有分支的姐妹群体。如果是无根树,那么其树根一般是遗传距离最长的两个分支的中部。
点击“Flip〞选项,可以选定一个内局部支,对本分支两旁的世系分支进行翻转。
点击“Swap〞选项,可以选定一个内局部支,对本分支两旁的亚系统树进行翻转,如果系统统树仅有一个群体,那么此选项与“Flip〞选项相同。
点击“Compress/Expand〞选项,可以选定一个内局部支,把分支后边包括的节点或亚系统树压缩为一个线条粗度比拟大的一个分支,其粗细程度与包括的类群的多少成正比。可以给这个新生成的分支起名字。如果选择此选项后,点击一个已经被压缩的分支,那么此分支会恢复到原来的形状,不过后边会有一个方括号附上压缩分支的名字。如下列图所示,一个是压缩的分支,一个是压缩后又伸展开的分支 :
.
Fig
点击“Draw Options〞选项,可以对亚系统树的显示方式进行调节。可以更改压缩分支的名字,线条的粗度、线条的颜色等。其操作界面如下列图所示:
.
Fig
如上图所示的操作界面,在Name/Caption选项中,可以编辑选定分支或节点的名字,点击“Font〞按钮可以修改名字的字体、大小、颜色等。通过Node/Subtree Marker选项可以为分支或节点选择一个图形来标记,通过“Color〞选项可以设定标记图形的颜色。通过“Branch Line〞选项,可以设定分支线条的颜色、粗细,显示风格等等。
点击上述操作界面的“Dispaly〞按钮,操作界面变为如下列图所示:
Fig
通过此“Subtree Draw Options〞操作界面,可以选择在系统树显示界面中哪些选项显示哪些选项不显示。如分支的名字、节点和分类的标记等等。
选中“Subtree〞下拉菜单中的“Use Subtree Draw Options〞选项,可以显示“Subtree Draw Options〞选项中所设定的内容,否那么不显示。
选中“Subtree〞下拉菜单中的“Use Group Draw Options〞选项,可以显示“Group Draw Options〞选项中所设定的内容,否那么不显示。
点击“Subtree〞下拉菜单中的“Divergence Time〞选项,可以对一个选定的节点设置分歧时间。其弹出的操作界面如下列图所示:
.
Fig
如上述操作界面,选定一个节点,在“Unit Label〞后边的矩形框中填入单元标记,在“Divergence Time〞 后边的矩形框中填入分歧时间,“Time Label〞 后边的矩形框中填入分歧时间标签的名字。点击“OK〞按钮,“Evolutionary Rate〞会自动计算出来,然后返回“Mega 3 Tree Explorer〞主操作界面。在系统树下边会增加一时间轴,如下列图所示:
Fig
点击“Subtree〞下拉菜单中的“Display in a window〞选项,可以选定系统树的一局部,在新窗口中放大显示。
点击“Mega 3 Tree Explorer〞操作界面中的“View〞按钮会弹出一个包括七个主选项的下拉菜单,通过此菜单可以对系统树的风格、样式、显示方式等进行设定,也可以设定系统树分支线条的粗细、颜色、系统树分支的名字、标记等。也可以对系统树进行一定程度上的修改。其下拉菜单的主选项,如下列图所示:
.
Fig
点击上述操作菜单中的“Topology only〞选项,可以显示分支之间的亲缘关系的远近,而不涉及各个分支的长度。系统树的形式如下列图所示:
Fig
点击“View〞菜单中的“Root On Midpoint〞选项,可以将系统树的树根确定到系统树中遗传距离最远的两个类群的路径的中间。
点击“View〞菜单中的“Arrange Taxa〞选项,会弹出两个子菜单:“For
Blanced Shape〞和“By Input Order〞。选择“For Blanced Shape〞选项,系统树以一种看似平衡的模式显示,选择“By Input Order〞选项,系统树类群尽量按照输入数据中的顺序显示。
点击“Viwe〞菜单中的“Tree/Branch Stytle〞选项,会弹出三个子菜单:“Traditional〞〔传统的〕、“Radation〞〔辐射状的〕、“Circle〞〔圆形的〕。“Traditional〞选项又有三个子菜单:“Rectangular〞〔矩形的〕、“Straight〞〔直线的〕、“Curved〞〔曲线的〕。
下边是这几种系统树显示方式的例如:
传统的矩形系统树:
.
Fig
传统的直线形系统树:
Fig
传统的曲线形系统树:
.
Fig
辐射形的系统树:
圆形的系统树〔摘自实验室已发表论文〕:
.
0.000
0.005
0.010
Fig
〔图中新疆古代察吾呼居民序列用(●)表示,在欧洲人群序列用(◆)表示,东亚人群序列用(▲)表示〕
点击“View〞菜单中的“Show/Hide〞选项,可以显示或隐藏某些选项。这些选项包括:“Taxon Label〞〔类群标签〕、“Taxon Marker〞〔类群标记〕、“Statistics/Frequency〞〔统计参数、频率,如每个分支的自展值等〕、“Branch
Lengths〞〔分支长度〕、“Scale Bar〞〔比例尺度条〕。
点击“View〞菜单中的“Fonts〞选项,弹出三个子菜单:“Taxon Name〞〔类群名字〕、“Branch Information〞〔分支相关信息〕、“Scale Bar〞 〔比例尺度条〕。通过此选可以修改这些信息的字体的大小、颜色、风格、类别等。
点击“View〞菜单中的“Options〞选项,可以修改和设定系统树显示的一些选项,其操作界面如下列图所示:
.
Fig
对此操作界面,点击“Tree〞按钮会显示如上图的操作界面,分别点击“Rectangular〞、“Circle〞、“Radiation Tree〞会显示不同的信息。此操作界面会显示系统树的分支长度、聚类起始类群、树的宽度,类群的别离等信息。
点击上述操作界面上端的“Branch〞按钮,操作界面变为如下列图所示:
.
Fig
通过上述操作界面可以设置,系统树分支线条的粗细。可以选择是否显示“Statistics/Frequency〞〔统计参数、频率,如每个分支的自展值等〕,以及这些数值在系统树上的位置〔如是置于系统树分支的下边还是上边等〕,以及距离节点的位置等,还可以设定如果这些统计参数小于某一值时不予显示〔通过“Hide
Values lower than〞后边的小方框设定〕。还可以选择是否显示“Branch Length〞〔分支长度〕,以及这些数值在系统树上的位置〔如是置于系统树分支的下边还是上边等〕,以及精确到小数点后多少位,还可以设定如果这些值小于某一值时不予显示〔通过“Hide if shorter than〞后边的方框设定〕。
点击上述操作界面上端的“Labels〞按钮,操作界面变为如下列图所示:
Fig
通过此操作界面可以设定是否显示各个类群的名字,以及设定这些名字字体的大小、风格、颜色等。还可以设定是否显示各个类群的标记,并可以为这些类群选择标记等,Mega大约提供了十种图形供我们选择,还可以通过“Color〞旁边的小矩形框为这些标记选定颜色。
点击上述操作界面上端的“Scale〞按钮,操作界面变为如下列图所示:
.
Fig
通过此操作界面可以选择,“Scale Bar〞〔比例尺度条〕分支线条的粗细,及其名字字体的大小、风格、颜色等。还
通过“Show Distance Scale〞选项,可以选择是否显示距离比例尺度,以及设定此尺度的名字,最大间隔与最小间隔等。
通过“Show Time Scale〞选项,可以选择是否显示分歧时间比例尺度,以及设定此尺度的名字,最大间隔与最小间隔等。
如下列图是设定之后的例如:
点击上述操作界面最上端的“Cutoff〞按钮,可以设定压缩树和一致性系统树的取舍点的值的大小。
点击“Mega 3 Tree Explorer〞操作界面的“Compute〞按钮会弹出一包括四个选择的下拉菜单。如下列图所示:
Fig
点击上述菜单中的“Condense Tree〞选项,可以计算压缩系统树,其意义在于,当系统树的内局部支的长度达不到统计学所学的值时,可以不考虑分支的长度,通过此命令做出系统树的拓扑结构。
.
点击上述菜单中的“Linearized Tree〞选项,可以构建线性的系统树,即具有分支分歧时间尺度的拓扑结构。
点击上述菜单中的“Consensus Tree〞选项,可以构建一致性系统树,此选项主要针对于MP〔最大简约法〕构建的系统树。因为利用最大简约法构建系统树时,很多时候会得到许多同样简约的系统,这时候要综合所有的系统树,用一致性指数去筛选合理的拓扑结构。
点击上述菜单中的“Calibrate MolClock〞选项,可以进行分子钟校正,其操作界面如下列图所示:
Fig
在上述操作界面的“Evolutionary Rate〞后的小矩形方框中,填入新的进化速率即可。
3.1 .2最小进化法构建系统发育树
最小进化方法〔ME,Minimum Evolution〕首先使用与Fitch-Margoliash法相同的方式计算出路径长度,然后根据路径长度优化出最短的进化树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化。ME方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误差,对内部的树枝长度进行优化。
最小进化法的理论根底是,当使用无偏的进化距离估计时,无论序列数目为多少,真实拓扑结构的预期值将会到达最小。这是一个很好的统计学特性,但是具有最小预期值的拓扑结构并不一定是真实拓扑结构的无偏估计。
当系统树分支比拟少的时候,ME树和NJ树通常很相似甚至相同;因此,当序列比拟多时,NJ树可以作为起始树。
导入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct Phylogeny〞选项中的“Minimum Evolution〔ME〕〞,即可构建系统发育树,其弹出的操作界面如下列图所示:
.
Fig
此操作界面与构建NJ树的界面很像,首先显示了计算分析操作的一些根本信息包括数据的类型、遗传距离模型的选取等。不同的是,多了一个“Search
Options〞选项,点击此选项的按钮可以激活“ME Tree Options〞操作界面,通过此操作界面可以设定构建最小进化系统树的一些计算分析参数。点击此操作界面最上端的“Test of Phylogeny〞按钮,可以进行系统树检验参数的设置,与构建NJ树一样,本操作界面也提供了两种检验方法:自展法和内局部支检验。这两种方法都基于自展重抽样理论,通过此界面可以设置自展的次数等。
“ME Tree Options〞的操作界面如下列图所示:
Fig
通过上述操作界面,可以设置保存的系统树的最大数目〔在“Maximum
Number of Trees To Retain〞后边的小矩形框中设置〕,可以设置CNI〔Close-Neighbor-Interchange〕法进行系统树搜索的水平,“Obtain by
Neighbor-Joining Method〞提示此系统树的构建在一定程度上借助NJ构树方法。
.
因为对于任何构树方法而言,要搜寻所有可能的拓扑结构都是相当耗时的,Mega程序所提供的最小进化法,通过先由NJ法提供一个暂时的拓扑结构,然后依赖拓扑距离来检验那些拓扑结构与此临时的系统树的差异而节省时间。经过屡次重复比拟之后,最有的系统树就会被搜寻到。这就是Close-Neighbor-Interchange〔相近邻接交换法〕存在的意义。
设置完毕后,点击带对号形状的按钮,返回到原操作界面,点击“Compute〞即可开始构建系统树。
3.1 .3最大简约法构建系统发育树
最大节约方法〔MP,Maximum Parsimony〕源于形态性状研究,是一种优化标准。这个标准遵循“奥卡姆剃刀原那么〔Occam’s razor〕〞:对数据最好的解释也是最简单的,因此所需要的特别假定也最少。在实际应用中,MP进化树是最短的,也是变化最少的进化树;根据定义,这个进化树的平行变化最少,或者说是同形性最低。
最大简约法应用于序列数据构建包括以下几个步骤:⑴确定所有的信息位点,⑵对所有可能的树型,计算每个信息位点上的发生核苷酸替代的最低次数,并对所有信息位点的最低替代数目求和,⑶选择核苷酸替代次数总和最小的树作为最简约谱系树。
为了能够包容取代偏好,MP一般需要加权;比方,颠换的变换相对于转换被加权。进行加权的最简单的方法就是建立一个加权步骤方阵,在这个方阵里,权重用速率的倒数,这个速率是可以由ML方法评估得到的。步骤方阵加权可能会极大地减慢MP的计算速度。
如果比对内部的位点确实存在这速率差异,那么MP方法就会执行得很不好。对于这个问题,还没有什么很好的解决方法。有一个方法,就是对数据集进行修改,使得最终分析的数据集中只包括那些内部差异性很小的位点,这些位点可以由似然分析方法判断得到的。更常见的情况是,MP分析只简单地屏蔽掉那些高度同形的可疑位点〔比方说,某些序列比对中的第三个编码位点〕。另外一个方法是根据引导树中所能观察到的位点变化倾向,对位点进行循环加权。
模拟研究已经说明,如果从世系分歧开始的序列进化的数量远大于世系别离的分歧数量〔比方,一个进化树中,终端的树枝很长,而内部节间的树枝很短〕,MP的效果比拟差。这种情况会造成“长树枝效应〞;长树枝可能会被人工连接,因为累积的非同源的相似性的数量超过了因为真实的相关性而保存的同源相似性的数量。在这种情况下,特征符加权会改善MP的执行效果。
MP方法的理论依据是建立在一个哲学理念之上。理论上说,如果每个核苷酸位点没有回复突变或平行突变,而且被检验的核苷酸数〔n〕非常大,那么MP方法能够获得正确的〔真实〕系统树。然而,实际上核苷酸序列通常会受回复突变或平行突变的影响,n也非常小。此外,如果核苷酸替代速率在进化谱系中变化很大的话,即使所研究的序列无限长,MP构树方法所产生的拓扑结构也会出现错误。
MP构树方法的优点在于:它不需要如距离法或似然法在处理核苷酸或氨基酸替代时所必需的假设。由于现行的诸多数学模型都是对核苷酸变异实际情况的粗略估计,因此,当序列分歧度比拟低的时候,无需模型的MP法可以获得比其他方法更可靠的系统树。计算机模拟说明:当⑴序列分歧度比拟低〔d≤0.1〕,⑵核苷酸替代速率相对稳定,⑶序列长度比拟大的情况下,MP法比其他方法更能获得可靠的拓扑结构。
.
导入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct Phylogeny〞选项中的“Maximum Parsimony〔MP〕〞,即可构建系统发育树,其弹出的操作界面如下列图所示:
Fig
此操作界面与构建NJ树的界面很像,首先显示了计算分析操作的一些根本信息包括数据的类型、构树方法的检验等。不同的是,多了一个“Search Options〞选项,点击此选项的按钮可以激活“MP Tree Serach Options〞操作界面,通过此操作界面可以设定用最大简约法构建系统树的一些计算分析参数。“Test of
Phylogeny〞的操作界面同其它方法相似,只是Mega程序没有提供针对此种构树方法的“Interior Branch Test〞〔内局部支检验〕。
“MP Tree Serach Options〞操作界面如下列图所示:
.
Fig
此操作界面提供了三种系统树搜索的方法;
“Max-Mini Branch-&-bound〞〔分支界限式搜索法〕:此方法从一个仅有有3个分类群的初始核心树〔无根树〕开始搜索MP树。剩余分类群以某种顺序逐一参加核心树,新树的长度在每个分类群参加时分别予以计算。如果核心树的一个特殊分支的分类群参加使树长超过预定树长的上限,那么这个拓扑结构及其后续拓扑结构以后不予考虑。当预定树长很接近真实MP树的树长时,许多树不必被检验,因此这个算法很节约时间。
“Min-Mini Heuristic Search〞〔启发式搜索法〕:Mega程序所提供的这个算法,在某种程度上跟分支界限式搜索法很像,这种方法也需要先建立一个临时树,然后逐步参加新的分支。在这个算法中,很多不可能具有短分支长度的树被删除掉,因此这个算法加速了检索到最优树的速度。但是,与分支界限式搜索法相比,此方法不一定能得到真实的最简约树。在此程序中,软件使用者可以控制搜索的范围,Mega软件使用户可以确定搜索上限的因子。在“Min-Mini Heuristic with
Search Fator of〞后边的小矩形框中,可以填入要确定的因子大小。
“Close-Neighbor-InterChange〔CNI〕〞临近互换算法,这个算法与ME算法中的很相似。对于任何构树方法而言,要搜寻所有可能的拓扑结构都是相当耗时的,由于计算能力的限制,现在一般只允许对很小一局部的可能的进化树进行搜索,具体的数目主要依赖于分类群的数量、优化标准。Mega程序所提供的临近互换算法,先由随机添加的一些序列构建一个暂时的拓扑结构,然后通过分支交换的方法进行搜索,从而寻得最简约的系统树。对于启发式搜索的因子数,使用者可以自己控制,在“Min-Mini Heuristic with Search Fator of〞后边的小矩形框中,填入需要的值即可。对于随机添加的树的重复次数,使用者也可以自己掌握,在“Random Addition Trees〞 后边的小矩形框中,填入需要的值即可。
设置搜索算法后,点击带对号形状的按钮,返回到原操作界面,点击“Compute〞即可开始构建系统树。
3.1 .4 UPGMA法构建系统发育树
不加权配对组算术方法〔UPGMA,unweighted pair group method with
arithmetic mean〕,又称算术平均的不加权对群法,也称类平均法,是目前广泛应用的最简单的一种建树方法。它按照配对序列的最大相似性和连接配对的平均值的标准将进化树的树枝连接起来。它不是一种严格的利用进化距离建树的方法。只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,才能期望UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构。但是,在实际问题中很少会遇到这种情况。
UPGMA法既能构建有根树,也能构建无根树;既能够构建拓扑结构,又能计算分支长度。当分歧程度不大时,尽管当基因替代率不稳定且所用基因或核苷酸数目较小时,经常会出现拓扑学误差,但UPGMA仍可用于构建系统树。
导入数据,点击Mega操作主界面“Phylogeny〞中的“Constrcuct Phylogeny〞选项中的“Maximum Parsimony〔MP〕〞,即可构建系统发育树,其弹出的操作界面如下列图所示:
.
Fig
此操作界面与其他构建系统树的方法的界面很像,首先显示了计算分析操作的一些根本信息包括数据的类型、计算分析的类型、核苷酸替代的类型、构树方法的检验等。不同的是,在“Test of Phylogeny〞界面中没有提供“Interior Branch
Test〞〔内局部支检验〕这种检验方法。
点击“Compute〞按钮,即可开始构建系统树。
3.2 带自展检验的系统发育树的构建
Mega程序提供了四种带自展检验的构建系统发育树的方法〔如下列图示〕:Neighbor-Joining〔NJ,邻接法〕、Minimum Evolution〔ME,最小进化法〕、Maximum
Parsimony〔MP,最大简约法〕、Unweighted Pair Group Method With Arithmetic
Mean〔UPGMA,算术平均的不加权对群法〕。其操作与上述普通构建系统树的方法一样,不同的是,程序在构建系统树时默认添加了自展法进行检验。
.
Fig
3.3 带内局部支检验的系统发育树的构建
Mega程序提供了两种带自展检验的构建系统发育树的方法〔如下列图示〕:Neighbor-Joining〔NJ,邻接法〕、Minimum Evolution〔ME,最小进化法〕。其操作与上述普通构建系统树的方法一样,不同的是,程序在构建系统树时默认添加了内局部支检验法进行检验。
Fig
.