2024年2月18日发(作者:崇定)
·481·中国临床药理学与治疗学中国药理学会主办CN3421206/R,ISSN100922501E2mail:ccpt96@2010May;15(5):481-489◇专论◇代谢组学数据处理方法———主成分分析阿基业中国药科大学药代动力学重点实验室&代谢组学研究室,南京210009,江苏摘要 代谢组学在生命科学领域得到了越来越广泛的应用并展现出良好的前景。代谢组学分析产生的含有大量变量的数据难以用常规方法进行分析,如何正确分析和解释代谢组学的数据是研究的关键。本文主要介绍了在代谢组学数据分析中占主导地位的主成分分析基本方法,旨在加强代谢组学数据分析的基础知识并规范数据分析的方法。关键词 代谢组学;主成分分析;偏最小二乘投影关联分析;偏最小二乘投影判别分析;正交偏最小二乘投影分析中图分类号:R969.1文献标识码:A文章编号:100922501(209代谢组学(metabolomics或metabonomics)是“后基因组学”时期新兴的一门学科,“代谢组学”一词虽然常以“metabonomics”或“metabolo2mics”出现,但多数学者通常并不对其加以严格区分,绝大多数情况下这两个词被认为包含了等同的意义。根据研究的内容、目的、偏重点和对代谢2010203211收稿 2010204224修回E2mail:ajiye333@组学的认识不同,代谢组学被赋予了不同的英文名称,如代谢物分析(metaboliteprofiling)、代谢谱分析(metabolicprofiling)、代谢指纹谱分析(metabolicfingerprinting)等;根据分析的目标化合物不同,还可以分为目标化合物分析(targetinganalysis)和(无设定目标的)全谱分析(non-tar2getinganalysis)。无论采用了哪种名称和说法,(metabo2代谢组学的研究对象都是体内“代谢组”lome,即生物样本、系统、组织或细胞中小分子化合物的总称)。不管采用哪种测定方法,应用代谢组学技术都可以测定到许多内源性化合物的定性/定量信息。这些信息在输出的谱图上表现为许多信号峰,在色谱质谱图上表现为不同保留时间出现色谱峰,在核磁共振谱图上表现为不同化学位移处的色谱信号。每个信号峰都既包含了检测分子的定性/结构信息,也包含了定量信息。以气相色谱-质谱检测为例,样品中的分子经过数十米长的石英毛细管色谱柱色谱分离后在色谱图上的不同时间出现,输出的总离子流图上的每个色谱峰都包含该物质定性信息(质谱图)和定量信息(峰高或峰面积),图1。对于特定化合物来说,其定性信息就是该化合物的特征谱图和色谱保留时间,是化合物鉴定的基础;其定量信息就是该化合物的色谱响应强度,如峰高、峰面积,是定量比较不同样品或组别之间差异的基础。 中国药科大学药物代谢动力学重点实验室&代谢组学研究室副研究员,主要从事药物代谢动力学、代谢组学、代谢性疾病发病机制、与代谢相关的药效或药物毒性的分子机制等方向的研究。
·482· 由于每分析一个样品都出现大量(通常数百甚至数千个)色谱峰,这些色谱峰包括氨基酸、脂肪酸、脂、小分子有机酸、核苷、嘌呤化合物、氨类化合物、糖醇类化合物、神经递质,还有许多暂时无法鉴定的分子。无论是来源于气相色谱-质谱(GC/MS)、液相色谱质谱(LC/MS)、核磁共振(NMR)波谱,最终所得到的定量数据都将构成一ChinJClinPharmacolTher2010May;15(5)的众多定量数据所决定,而各个样品之间或者各组样品之间差异的程度取决于上述定量数据。然而,由于数据量非常大,采样常规统计分析方法既难以发现样品之间或各组之间的异同,也难以发现样品中的哪些变量(分子)造成上述差异。因此代谢组学数据需要特殊方法加以分析。通常情况下,可以采用主成分分析(也称模式识别)、聚类分析、神经元网络分析等方法进行分析,其中应用最为广泛的是主成分分析方法[1]。由于主成分分析方法比较抽象,并不为许多代谢组学研究者所熟悉,本文希望用最简洁、易懂的语言介绍主成分分析的原理和常规分析方法。个如表1所示的数据集,该表第一列为样品名/观测对象(observation);第一行为色谱峰/化合物(即检测变量,variables)或特定保留时间(MS数据)或特定化学位移(NMR数据),对应之处为色谱定量数据。这样每个样品的特征就由同一行中图1 GC/TOFMS测定血浆和血清的总离子流图A:plasma;B:poundswereidentifiedas:1,Pyruvate;2,Alanine;3,Hydroxy-acetate;4,Lactate;5,3-Hydroxy2butyrate;6,Valine;7,Urea;8,Isoleucine,Proline;9,Glycine;10,Serine;11,Threonine;12,Pyroglutamate;13,Creatinine;14,Phenylalanine;15,Glutamine;16,glutamate;17,Citrate;18,Glucose;19,Uricacid;20,Linoleicacid;21,Oleicacid;22,Trypto2phan,stearate;23,gamma-Tocopherol;24,Cholesterol.1 主成分分析的原理下面就以表1数据为基础介绍主成分分析方法的原理。假如该组数据中样品数为n,检测到的色谱峰/或变量数为m。那么,这个原始数据表的几何含义就代表了在一个m维空间中分布着n个点,每个样品的位置由其对应的一组变量(矢量)所确定。因代谢组学可以检测许多色谱峰/变量,m数目通常很大,由此原始数据产生的数学模型无法直观地发现样品或组别之间差异,这时就可以考虑用投影的方法对上述(多维空间)模型进行降维处理以化繁为简。主成分分析是一种基于投影技术的数据分析方法[2]。在模型计算时首先利用最小二乘法原理找到一条直线使所有样品距离该直线的残差平方和最小,而投影在此数轴方向的矢量平方和最大,那么该直线方向也就体
中国临床药理学与治疗学2010May;15(5)·483·不能很好地表现该组数据最大差异特征。为了最大限度地体现数据的分布特征,所选择的直线必须包含各点的在该数轴上投影的最大方差,如图2所示能体现数据最大方差的应为直线PC1(新X轴),假设数据的重心(坐标原点)在O点,数据点Pi在直线PC1上的投影点为OMi,所有样品在PC1上的投影数据的总方差最大,由下式计算:S2=|OM1|2+|OM2|2+…+|OMi|2而所有样品距离PC1方差和为最小,由下式计算:Sd2=|P1M1|2+|P2M2|2+…+|PiMi|2现了样品间最大差异,由此得到第一个主成分(PC1);在此基础上,沿着与前一个主成分直线垂直方向找到其次差异最显著的直线,得到第二个主成分(PC2),如此反复。通过这种方式,抛弃细小的、无序的差异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简单并容易理解和展示。这里以二维空间为例介绍主成分分析的方法。如图2所示:数据分布在一个二维空间中,但显然,若以原有的横轴或纵轴为主成分方向,所有样品点距离它们的残差平方和不可能最小,在这两个方向上也没有实现各样品在横轴或纵轴投影的方差最大,因此也就表1 代谢组学数据表 经过一次计算后,产生的新数据为[|OM1|、|OM2|…|OMi|],这组数据包含了原始数据中的最大部分特征信息,称作第一主成分。除此之外,因为仍有部分重要信息未被包含进来,可再找一条与第一主成分垂直的一维直线,选取方差最大那条进行数据投影即PC2(新Y轴),得到第二主成分和数据[|ON1|、|ON2|…|ONi|]。甚至第三、第四个主成分。根据对模型的不同要求,一般说来选取的前面几个主成分,使其对总体方差的累计贡献率达到80%以上即可。但对于需要进行准确描述/预测的特殊模型该比例要适当提高。由上可知,主成分是原始变量按一定的权重图2 主成分的计算和分析原理示意图主成分的计算即是逐次寻找直线使所有样品距离该直线的最小二乘方差和最小、样品投影到PC1上的方差和最大。
·484·线性组合之后而产生的新变量,这些变量具有如下特征:(1)每个主成分通常代表了一类具有相似特征的变量并体现了它们的综合特点;(2)第一个主成分包含了原始数据的最大差异,第二个之成分次之,以此类推;(3)这些主成分所在的直线都是相互垂直(正交)。通常情况下用前面少数几个主成分即可最大限度地描述/解释数据特点/结构。这样依据前两个或三个主成分做出平面或三维图,就可以直观地表现原始数据所代表的样本状态。通过主成分分析所得到的图谱中,每一个样本在主成分图上的位置纯粹由不同色谱峰/变量的定量数据所决定。而具有相似病理、生理状态的样本往往含有相近浓度的代谢产物,因而出现在主成分图的相近位置,反之亦然。ChinJClinPharmacolTher2010May;15(5)得分图(scoresplot)。由于PCA分析是建立在同一个数据集X基础上,经过投影方法计算PCA第一个主成分后,可以得到各个样品点在第一个主成分上的得分t1,再得到各个样品点第二个主成分上的得分t2,如图3。各个样品在各个主成分的得分就是其在计算的数学模型中的空间坐标,自然也就决定了其在模型中的具体位置,并直观地反映了各个样品在数学模型空间中的分布情况。从PCA得分图可观察样品的聚集、离散程度。样品分布点越靠近,说明这些样品中所含有的变量/分子的组成和浓度越接近;反之,样品点越远离,其差异越大。因此得分图也可以更形象地称为样品分布散点图。在采用GC/MS分析血浆和血清中小分子差异时,PCA模型显示两组样品分别分布在不同区域,说明即使相同来源的血浆与血清存在明显差别(图3)。从图3还可以看出血清样品相对集中,说明血清样品组内差异较小;而血浆样品分散较多,说明血浆样品之间差异较大。另一方面,PCA模型还可以反映样品随时间连续动态变化过程。由于全血在体外温孵过程中,存活在全血中的细胞在继续消耗营养物质并产生代谢产物,因此经过温孵不同时间制备的血浆或者血清代谢谱出现了连续的动态变化(图4)。2 数据的权重值得重视的是,代谢组学数据在进行主成分分析之前,常需要对数据进行适当权重/转换。因为代谢组学数据中所含有的变量通常取值范围大、变异也大。如果直接采用主成分分析这种最大化差异投影的方法,往往造成绝对数值大、变异较大的变量在模型拟合中的贡献占主导地位,而绝对数值范围小、变异小的变量对模型的贡献也小。为了消除这种偏重,可以对数据进行合理的权重(weighting)或缩放(scaling)。虽然有多种权重的方法,但主成分分析以等方差法(UV,u2nitvariance)最为常用。其方法是先计算每一个检测变量的标准偏差(standarddeviation,Sk),获得权重因子为Sk的倒数(1/Sk),然后对此变量乘以1/Sk进行权重。经过如此权重后使每个变量均具有相同的方差,不造成对变量的歧视,有利于数据的分析和比较。在成功地“均方差”后,再计算每个变量的平均值,用每个变量数据减去该平均值就可以使数据均匀分布在0轴附近,这个过程称作平均值中心化(mean-centering)。数据经过上述两个步骤处理后通常可以提高模型的有效性和预测能力。以Simca-P软件为例,上述的数据预处理过程是其默认方式。该软件还提供了其它权重方法,详见有关参考书籍。图3 PCA分析血浆与血清样品的得分图(样品分布散点图)P:plasma;S:serum;M:male;F:female PCA分析的目的不仅仅是发现样品之间的异同,更重要的是在大量数据中发现造成上述差异的具体分子。这些分子可以为深入研究样品的内在差异、寻找生物标志物、研究疾病的发病机理、药物作用的机理、药物毒性发生机理等提供重要信息。与得分图相对应,PCA分析中还可以得到载荷图(LoadingsPlot),载荷图表示了所检测3 PCA模型的得分图和载荷图PCA分析可以得到两类分布图,一种常称为
中国临床药理学与治疗学2010May;15(5)·485·以SIMCA2P为例,模型的验证主要参考R2、222Q等参数,R是所解释的模型差异,Q是所预测22的模型差异。R、Q计算方法如下:22R=1-RSS/SSX;Q=1-PRESS/SSX(其中SSX表示平均值中心化后模型数据的总变异)R比较容易理解,但模型如何能得到一个预2的变量(如MS中色谱峰、NMR中的化学位移)分布情况,载荷图中的变量分布与得分图中样品分布和位置相对应(图5)。利用PCA模型,可以比较容易地从大量变量中鉴定出在样品间或组间差异化合物,然后只对这些差异进行进一步鉴定。避免了逐个对所有化合物进行统计分析的麻烦,提高了分析效率。当然,采用载荷图寻找差异化合物是一个比较简便、粗略的方法,对差异化合物的显著性检验最终的标准仍然是常规的统计分析方法,如T检验、方差分析等。测值?事实上,在计算PCA模型时,软件(如SIMCAP)通常把数据随即分成7组,用其中6组数据作为基础计算一个基本模型,用此模型来预测另外一组的准确程度,并反复多次,得到Q2值。2因此,理论上说R2、Q数值越接近1说明模型越好,越低说明模型的拟合准确性越差,通常情况2下,R2、Q高于0.5(50%)较好,且两者差值不应2过大。应当注意,R2、Q值与主成分的数目密切有2关,通常情况下,选择的主成分越多,R2、Q值也越大,当增加主成分只能增加R2而Q2值不再增加时就应该终止计算新的主成分,因为继续增加主成分对模型不再有意义。这里需要特别注意模型是否拟合过度,过度拟合也会导致模型的失真,图4 PCA分析血浆与血清样品在温孵不同时间后的得分图(样品分布散点图)发现全血温孵前后(0、1、2、3、4小时)制备的血浆或者血清分布散点出现连续自上而下的动态变化,提示PCA方法可以表现样品内分子的连续动态变化过程。P:plasma;S:serum.P0;□,P1;○,P2;◇,P3;△,P4;■,S1;●,S2;◆,S3;▲,S4.此部分内容可以参考相关文献。5 无监督分析和有监督分析在不对样品加以分组的情况下进行数据分析的方法称为无监督分析方法(un-superviseda2nalysis)。这种方法因没有外加任何人为因素,计算出的PCA模型反映了数据的原始状态,有利于了解数据的整体情况并对数据从整体上进行把握,特别有利于发现和剔除异常样品,提高模型的准确性。因无监督分析的方法对所有样品不加以区分,即每个样品都对模型有着同样的贡献,因此,当样品的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间差异;而当样品的组间差异不明显,而组内差异较大时,无监督分析方法难以发现和区分组间差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。这种情况下,无监督分析难以得出正确的结论。究其原因,关键在于无监督分析方法不能忽略组内误差、消除与研究目的无关的随机误差,过分关注于细节、忽略了整体和规律,最终不利于发现组间差异和差异化合物,而这一点恰恰是代谢组学研究的最重要的目的。4 模型的验证经过PCA计算出的数学模型是否可靠需要进行严格的验证。不可靠的数学模型不仅不能很好地描述代谢组学数据特点,还可能严重影响正确结果的获得甚至误导分析结果。交叉验证(Cross-Validation)是检验PCA模型有效性的一种实用可靠的方法[1]。交叉验证的基本思想是先利用一部分数据建立模型,预测另外一部分不参与模型计算的数据,将预测值和真实值之间进行比较。此预测值与观察值之差的平方和即预测残差平方和(predictiveresidualsumofsquares,PRESS),此参数是度量测试模型的预测能力的指标。以SIMCA-P软件为例,每计算一个主成分就会得到一个PRESS值,将其与前面低一维数学模型的残差平方和(RSS)进行比较,当PRESS明显大于RSS时,说明新计算的主成分没有意义,模型计算即终止。
·486·这个问题可以通过采用有监督分析(supervisedanalysis)的方法加以解决。有监督分析就是先将检测样品按照类别进行分组,再进行分析,这时在计算数学模型时计算机就把各组加以区分,忽略组内的随机差异,突出组间系统差异。以代谢组学数据处理中最常用的软件SIMCA-P为例,将上述图4中男性和女性血清样品按照无监督分析方法(PCA)进行分析,发现该模型不能有效区分血清的性别差异(图6A);而该组数据采用有监督分析方法进行分析,如选择偏最小二乘投影判别(Partialleastsquaresprojectiontolatentstruc2ture2discriminantanalysis,PLSDA)法进行分析,得到的样品分布散点图显示两组样品区分显ChinJClinPharmacolTher2010May;15(5)著(图6B),说明血清样品存在明显的性别差异。图5 无监督分析方法(PCA)和有监督分析方法(PLS2DA)对相同数据进行分析后的不同效果A:无监督分析方法(PCA)不能有效区分血清的性别差异;B:有监督分析方法(PLSDA)分析显示两组样品区分显著。图6 无监督分析方法(PCA)和有监督分析方法(PLSDA)对相同数据进行分析后的不同效果A:无监督分析方法(PCA)不能有效区分血清的性别差异;B:有监督分析方法(PLSDA)分析显示两组样品区分显著。6 异常样品的鉴别采用主成分方法进行数据分析时,需要注意是否有特别异常的样品。因为异常的样品可能严重影响模型结构,导致模型严重失真。异常样品常是因为各种因素所引起,可能是样品自身因素(如该样品受到污染、病人伴随其它严重疾病、遗传学异常),也有可能是在处理过程中外界因素(如人为处理不当、仪器偶然测定误差)等引起。一般情况下,在大量样品中出现个别异常样品是正常现象,可以通过剔除加以解决,但当发现异常样品过多(达到或超过样品总数的5%),就应该考虑到实验设计和样品等因素,样品不能随意加以剔除。特别异常的样品可以通过无监督分析的分布散点图加以鉴别,而一般异常的样品可以通过计算各个样品与模型距离(Distancetomodel,Dmodx)是否超过限定值(P=0.05)来确定。以样品分布散点图为例,异常样品还可以分为两类,一类是明显不同于所有研究样品,如图4中的PM7,在该项研究中除PM7外,所有志愿者年龄均在24~30岁之间,采集了空腹静脉血,PM7是惟一一个餐后采集血液,且年龄超过40岁的志愿者。另一类是明显不同于同组样品,却近似于其它组样品,如图7中的5893也是异常样品。因为根据实验小鼠的类别,所有■小鼠均为野生型小鼠,而●均为超氧化歧化酶(SOD)基因敲除小鼠。该研究结果公布后引起了有关专家的强烈质疑,但随后的遗传学检查发现5893为基因敲除不完全(即杂合子)小鼠。证明代谢组学能较好地描述体内分子状态,在进行数据分析时,这类异常样品在分组分析时必须剔除。
中国临床药理学与治疗学2010May;15(5)·487·数据集,进行PLS分析。w3c[1]、w3c[2]作图发现甲醇有利于血浆中绝大部分分子的提取[3](图8)。t1、u1作图分析显示右上角的21、14、18、24、29、9、17进样号的样品提取效率最高(图9),且X数据集与Y数据集呈现较好相关性。7 偏最小二乘投影关联分析(partialleastsquaresprojecttolatentstructure,PLS)[1] 与PCA分析的原理相同,PLS利用偏最小二乘法对数据结构进行投影分析。但PLS与PCA数据有本质的不同,PCA分析方法中只有一个数据集X,所有分析都只是基于这个唯一的数据集,对应于一个多维空间。而PLS分析是建立两个数据集X和Y基础上的,因此也对应地存在两个多维空间,在利用投影方法计算PLS第一个主成分后,分别得到X和Y空间的两条轴线以及各个样品点在X和Y空间轴上的得分t1、u1。对X和Y数据的关联分析就是将所有样品在X和Y空间第一个主成分轴上的得分t1、u1分别作相关分析,可以表示为ui1=ti1+ri1,i表示不同样品,ri1表示残差。对应地,经过第二个主成分计算可图7 无监督分析模式(PCA)可以发现明显异常的样品PCA分析显示●5893_1与●5893_2明显不同于同组的其它超氧化歧化酶(SOD)基因敲除小鼠,判断是第二类异常样品。以得到的t2、u2,有关系式ui2=ti2+ri2,i表示不同样品,ri2表示残差。如果用t1、t2对应作图得到数据集X的PCA得分图,如果用u1、u2对应作图得到数据集Y的PCA得分图。而如果用t1、u1作图就表示第一个主成分下数据集X与数据集Y相关性,如果各点呈现出一条成45度角的直线,说明两组数据完全相关。相反,如果散点不呈线性、分布松散,说明两组数据关联不强。与PCA的载荷图(变量分布散点图)相类似,PLS可以用权重方式对X、Y数据集中的变量进行相关联,找出变量之间的关系。如在SIMCA-P软件中,以w作为X数据集权重,c作为Y数据集的权重,第一个主成分可以得到X、Y数据综合权重w3c[1],第二个主成分可以得到X、Y数据综合权重w3c,以w3c[1]、w3c[2]作图就可以直观地显示两个数据集的变量之间相关性。这一点在研究药物构效关系、构动关系、疾病高危因素、实验设计关键因素、变量的变化规律等方面十分有用。 在代谢组学研究中,X往往是代谢组学检测得到的数据集,Y可以是试验设计的因变量,也可以是目标变量(如临床数据),PLS就是采用关联的方法分析X、Y数据集并发现规律性。例如我们在筛选最佳提取溶剂提取血浆中内源性小分子时,将实验设计方案中的有机溶剂不同组成作为Y数据集[3]图8 X数据集变量与Y数据集变量之间对应关系PLS分析图(w3c[1]-w3c[2])大部分化合物(X数据集变量)靠近右侧甲醇(Y数据集变量)位置,说明甲醇有利于血浆中绝大部分分子的提取(JiyeA,icalChemistry,2005,77,8086-8094.)图9 X数据集与Y数据集之间整体对应关系PLS分析图(t1-u1)提示右上角的21、14、18、24、29、9、17样品提取效率高,而左下角效率低(JiyeA,icalChemistry,2005,77,8086-8094),而把GC/TOFMS检测结果作为X
·488·ChinJClinPharmacolTher2010May;15(5)8 偏最小二乘投影判别分析(PLSDA)与PCA原理相似,偏最小二乘判别分析(discriminantanalysis,DA)只需要一个数据集X,但在分析时必须对样品进行指定并分组,这样分组后模型自动加上另外一个隐含的数据集Y,该数据集变量数等于组别数,赋值时把指定的那一组规定为1,其它所有值均为0。其它计算方法与PLS相同。这种模型计算的方法强行把各组分门别类,有利于发现组间的异同点。例如上述的图7,PCA方法无法区分的样品在PLSDA模型中比较容易加以区分。OPLS模型可以增强模型的有效性和对新样品的预测能力。10 正交2偏最小二乘投影判别分析(O2PLSDA) 常规的PLS使用X创建Y模型,目标是根据X模型来预测Y模型。然而,数据表X与Y不相关的系统变量可影响PLS分析模型,这可能使得表X、Y中的某些正相关被忽略。正交偏最小二乘投影分析方法(orthogonal-PLS,OPLS)将正交信号校正方法(orthogonalsignalcorrection,OSC)与PLS进行结合从而对PLS进行修正的分析方法,与OPLS相同,OPLSDA根据数据表Y的差异将数据表X的差异分为两个部分,第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,OPLSDA可将这两部分差异进行区分。设计它是为了控制与Y直交或者无关的X的变化并加以滤除。同过这种方式,OPLSDA可以更好地区分组间差异,提高模型的有效性和解析能力。下面我们举一个例子来说明OPLSDA与PLSDA的差别。利用NMR分析正常男女血清9 噪音滤除与正交偏最小二乘投影分析不管采用何种测定方法检测样品,监测器总是将所有设定范围内的信号全部记录下来,因此最终得到的色谱图或解析结果中总是含有一些与研究无关的干扰信号。这些可能是样品处理过程中带入的杂质或产生的副产物,也可能是仪器检测的噪音(电流)干扰。滤除这些噪音有助于发现最重要的变量,减少不必要的分析鉴定工作,并在模型拟合时提高模型的有效性。正交偏最小二乘数据内在结构投影法(Orthogonal-PLS,OPLS)可以用于滤除与研究对象无关的噪音,是PLS方法的一种变化特例。即,OPLS将PLS中Y数据集减少为只有一个变量,而这个变量在比较的两组中的值被设定为一个极大、一个极小。这样,OPLS分析实际上就将原始数据矩阵X中系统差异分成两个部分,一部分变量与回归矩阵Y线性相关,另外一部分变量与回归矩阵线性无关,即正交(orthogonal)[2]。通过这种方式建立新的代谢图谱的差异。在获取样本时,为了保持样本的均一性,对受试者的饮食、生活方式等都作了严格的规定,但因为在实际操作中很难达到完全的一致性。为了尽量减少其它因素对试验结果的影响,分别用OPLSDA与PLSDA对正常男女的血清代谢图谱进行分析并进行比较,结果显示PLS2DA得分图中两组样品不能很好区分,而OPLS2DA得分图中的两组区分显著[4],即OPLSDA明显提高了模型的分辨能力(图10)。图10 OPLSDA与PLSDA对两组样品数据分别进行分析后效果图A:PLSDA;B:OPLSDA(冒海蕾,等.化学学报,2007,65(2):152-158)
中国临床药理学与治疗学2010May;15(5)469-479.·489·参考文献[1] ErikssonL,JohanssonE,Kettaneh-WoldN,-andmegavariatedataanalysisprinciplesandapplications[D].UmeatricsAcademy,Umet2ricsAB,Sweden.2001.[2] TryggJ,HolmesE,etricsinmetabonomics[J].JProteomeRes,2007,6(2):[3] AJ,TryggJ,GullbergJ,tionandGC/MSanalysisof(24):8086-8094.[4] 冒海蕾,徐旻,王斌,等.正交信号校正在正常成人thehumanbloodplasmametabolome[J].AnalyticalChemistry,2005,77血清1HNMR谱的代谢组分析中的滤噪作用评价[J].化学学报,2007,65(2):isofmetabolomicdata:principalcomponentanalysisJiyeAaKeyLabofDrugMetabolismandPharmacokinetics&LabofMetabolomics,ChinaPharmaceuticalUniversity,Nanjing21009,Jiangsu,ChinaABSTRACT Metabolomicshastionalstatisticanalysisisnotapplicabletothelarge,multivariatedatasetgen2eratedbyhigh-throughputmetabolomictool,whileit’ticlereviewsthebasicmethodsofprincipalcomponentsanalysis(PCA)thatispopularinmetabolomicsstudy,aimingatstrengtheningthefundamentalknowleDS Metabolomics;Principalcompo2nentsanalysis(PCA);Partialleastsquarespro2jecttolatentstructure(PLS);Partialleastsquaresprojecttolatentstructure-discriminantanalysis(PLS-DA);Orthogonalpartialleastsquaresprojecttolatentstructure(OPLS)本文编辑:余文涛《中国临床药理学与治疗学》2010年征订启事 本刊为中国科学技术协会主管,中国药理学会主办的全国性、学术性刊物,国家科技部中国科技论文统计源期刊,中国科技核心期刊。月刊,幅面尺寸280mm×205mm,120页,CN3421206/R,ISSN100922501。以从事新药研究、临床药理学与治疗学工作的高中级医疗、科研、教学人员为主要读者对象。设有专论、综述与讲座、基础研究、定量药理学(包括药代动力学、药效动力学及药物临床评价等)、临床药理学(包括药物基因组学及药物蛋白组学等)、药物治疗学、短篇报道、读者·作者·编者等栏目。2008年已被下列数据库收录:世界卫生组织(WHO)全球医学索引、中国知网、万方数据库、维普资讯、中国科协科技期刊论文数据库、中文生物医学期刊文献数据库(CMCC)、中国学术期刊文摘等。本刊国内邮发代号:26-165,国外邮发代号:2501Q。每期订价12元,全年144元。全国各地邮政局(所)均可办理订阅手续。也可随时汇款至本刊编辑部订阅。地址:安徽省芜湖市弋矶山医院内 中国临床药理学与治疗学杂志社邮编:241001E2mail:ccpt96@电话:、5739333网址:
2024年2月18日发(作者:崇定)
·481·中国临床药理学与治疗学中国药理学会主办CN3421206/R,ISSN100922501E2mail:ccpt96@2010May;15(5):481-489◇专论◇代谢组学数据处理方法———主成分分析阿基业中国药科大学药代动力学重点实验室&代谢组学研究室,南京210009,江苏摘要 代谢组学在生命科学领域得到了越来越广泛的应用并展现出良好的前景。代谢组学分析产生的含有大量变量的数据难以用常规方法进行分析,如何正确分析和解释代谢组学的数据是研究的关键。本文主要介绍了在代谢组学数据分析中占主导地位的主成分分析基本方法,旨在加强代谢组学数据分析的基础知识并规范数据分析的方法。关键词 代谢组学;主成分分析;偏最小二乘投影关联分析;偏最小二乘投影判别分析;正交偏最小二乘投影分析中图分类号:R969.1文献标识码:A文章编号:100922501(209代谢组学(metabolomics或metabonomics)是“后基因组学”时期新兴的一门学科,“代谢组学”一词虽然常以“metabonomics”或“metabolo2mics”出现,但多数学者通常并不对其加以严格区分,绝大多数情况下这两个词被认为包含了等同的意义。根据研究的内容、目的、偏重点和对代谢2010203211收稿 2010204224修回E2mail:ajiye333@组学的认识不同,代谢组学被赋予了不同的英文名称,如代谢物分析(metaboliteprofiling)、代谢谱分析(metabolicprofiling)、代谢指纹谱分析(metabolicfingerprinting)等;根据分析的目标化合物不同,还可以分为目标化合物分析(targetinganalysis)和(无设定目标的)全谱分析(non-tar2getinganalysis)。无论采用了哪种名称和说法,(metabo2代谢组学的研究对象都是体内“代谢组”lome,即生物样本、系统、组织或细胞中小分子化合物的总称)。不管采用哪种测定方法,应用代谢组学技术都可以测定到许多内源性化合物的定性/定量信息。这些信息在输出的谱图上表现为许多信号峰,在色谱质谱图上表现为不同保留时间出现色谱峰,在核磁共振谱图上表现为不同化学位移处的色谱信号。每个信号峰都既包含了检测分子的定性/结构信息,也包含了定量信息。以气相色谱-质谱检测为例,样品中的分子经过数十米长的石英毛细管色谱柱色谱分离后在色谱图上的不同时间出现,输出的总离子流图上的每个色谱峰都包含该物质定性信息(质谱图)和定量信息(峰高或峰面积),图1。对于特定化合物来说,其定性信息就是该化合物的特征谱图和色谱保留时间,是化合物鉴定的基础;其定量信息就是该化合物的色谱响应强度,如峰高、峰面积,是定量比较不同样品或组别之间差异的基础。 中国药科大学药物代谢动力学重点实验室&代谢组学研究室副研究员,主要从事药物代谢动力学、代谢组学、代谢性疾病发病机制、与代谢相关的药效或药物毒性的分子机制等方向的研究。
·482· 由于每分析一个样品都出现大量(通常数百甚至数千个)色谱峰,这些色谱峰包括氨基酸、脂肪酸、脂、小分子有机酸、核苷、嘌呤化合物、氨类化合物、糖醇类化合物、神经递质,还有许多暂时无法鉴定的分子。无论是来源于气相色谱-质谱(GC/MS)、液相色谱质谱(LC/MS)、核磁共振(NMR)波谱,最终所得到的定量数据都将构成一ChinJClinPharmacolTher2010May;15(5)的众多定量数据所决定,而各个样品之间或者各组样品之间差异的程度取决于上述定量数据。然而,由于数据量非常大,采样常规统计分析方法既难以发现样品之间或各组之间的异同,也难以发现样品中的哪些变量(分子)造成上述差异。因此代谢组学数据需要特殊方法加以分析。通常情况下,可以采用主成分分析(也称模式识别)、聚类分析、神经元网络分析等方法进行分析,其中应用最为广泛的是主成分分析方法[1]。由于主成分分析方法比较抽象,并不为许多代谢组学研究者所熟悉,本文希望用最简洁、易懂的语言介绍主成分分析的原理和常规分析方法。个如表1所示的数据集,该表第一列为样品名/观测对象(observation);第一行为色谱峰/化合物(即检测变量,variables)或特定保留时间(MS数据)或特定化学位移(NMR数据),对应之处为色谱定量数据。这样每个样品的特征就由同一行中图1 GC/TOFMS测定血浆和血清的总离子流图A:plasma;B:poundswereidentifiedas:1,Pyruvate;2,Alanine;3,Hydroxy-acetate;4,Lactate;5,3-Hydroxy2butyrate;6,Valine;7,Urea;8,Isoleucine,Proline;9,Glycine;10,Serine;11,Threonine;12,Pyroglutamate;13,Creatinine;14,Phenylalanine;15,Glutamine;16,glutamate;17,Citrate;18,Glucose;19,Uricacid;20,Linoleicacid;21,Oleicacid;22,Trypto2phan,stearate;23,gamma-Tocopherol;24,Cholesterol.1 主成分分析的原理下面就以表1数据为基础介绍主成分分析方法的原理。假如该组数据中样品数为n,检测到的色谱峰/或变量数为m。那么,这个原始数据表的几何含义就代表了在一个m维空间中分布着n个点,每个样品的位置由其对应的一组变量(矢量)所确定。因代谢组学可以检测许多色谱峰/变量,m数目通常很大,由此原始数据产生的数学模型无法直观地发现样品或组别之间差异,这时就可以考虑用投影的方法对上述(多维空间)模型进行降维处理以化繁为简。主成分分析是一种基于投影技术的数据分析方法[2]。在模型计算时首先利用最小二乘法原理找到一条直线使所有样品距离该直线的残差平方和最小,而投影在此数轴方向的矢量平方和最大,那么该直线方向也就体
中国临床药理学与治疗学2010May;15(5)·483·不能很好地表现该组数据最大差异特征。为了最大限度地体现数据的分布特征,所选择的直线必须包含各点的在该数轴上投影的最大方差,如图2所示能体现数据最大方差的应为直线PC1(新X轴),假设数据的重心(坐标原点)在O点,数据点Pi在直线PC1上的投影点为OMi,所有样品在PC1上的投影数据的总方差最大,由下式计算:S2=|OM1|2+|OM2|2+…+|OMi|2而所有样品距离PC1方差和为最小,由下式计算:Sd2=|P1M1|2+|P2M2|2+…+|PiMi|2现了样品间最大差异,由此得到第一个主成分(PC1);在此基础上,沿着与前一个主成分直线垂直方向找到其次差异最显著的直线,得到第二个主成分(PC2),如此反复。通过这种方式,抛弃细小的、无序的差异,保留最大的、有序的差异,最终得到只有少数几个主成分的数学模型,并使数据变得简单并容易理解和展示。这里以二维空间为例介绍主成分分析的方法。如图2所示:数据分布在一个二维空间中,但显然,若以原有的横轴或纵轴为主成分方向,所有样品点距离它们的残差平方和不可能最小,在这两个方向上也没有实现各样品在横轴或纵轴投影的方差最大,因此也就表1 代谢组学数据表 经过一次计算后,产生的新数据为[|OM1|、|OM2|…|OMi|],这组数据包含了原始数据中的最大部分特征信息,称作第一主成分。除此之外,因为仍有部分重要信息未被包含进来,可再找一条与第一主成分垂直的一维直线,选取方差最大那条进行数据投影即PC2(新Y轴),得到第二主成分和数据[|ON1|、|ON2|…|ONi|]。甚至第三、第四个主成分。根据对模型的不同要求,一般说来选取的前面几个主成分,使其对总体方差的累计贡献率达到80%以上即可。但对于需要进行准确描述/预测的特殊模型该比例要适当提高。由上可知,主成分是原始变量按一定的权重图2 主成分的计算和分析原理示意图主成分的计算即是逐次寻找直线使所有样品距离该直线的最小二乘方差和最小、样品投影到PC1上的方差和最大。
·484·线性组合之后而产生的新变量,这些变量具有如下特征:(1)每个主成分通常代表了一类具有相似特征的变量并体现了它们的综合特点;(2)第一个主成分包含了原始数据的最大差异,第二个之成分次之,以此类推;(3)这些主成分所在的直线都是相互垂直(正交)。通常情况下用前面少数几个主成分即可最大限度地描述/解释数据特点/结构。这样依据前两个或三个主成分做出平面或三维图,就可以直观地表现原始数据所代表的样本状态。通过主成分分析所得到的图谱中,每一个样本在主成分图上的位置纯粹由不同色谱峰/变量的定量数据所决定。而具有相似病理、生理状态的样本往往含有相近浓度的代谢产物,因而出现在主成分图的相近位置,反之亦然。ChinJClinPharmacolTher2010May;15(5)得分图(scoresplot)。由于PCA分析是建立在同一个数据集X基础上,经过投影方法计算PCA第一个主成分后,可以得到各个样品点在第一个主成分上的得分t1,再得到各个样品点第二个主成分上的得分t2,如图3。各个样品在各个主成分的得分就是其在计算的数学模型中的空间坐标,自然也就决定了其在模型中的具体位置,并直观地反映了各个样品在数学模型空间中的分布情况。从PCA得分图可观察样品的聚集、离散程度。样品分布点越靠近,说明这些样品中所含有的变量/分子的组成和浓度越接近;反之,样品点越远离,其差异越大。因此得分图也可以更形象地称为样品分布散点图。在采用GC/MS分析血浆和血清中小分子差异时,PCA模型显示两组样品分别分布在不同区域,说明即使相同来源的血浆与血清存在明显差别(图3)。从图3还可以看出血清样品相对集中,说明血清样品组内差异较小;而血浆样品分散较多,说明血浆样品之间差异较大。另一方面,PCA模型还可以反映样品随时间连续动态变化过程。由于全血在体外温孵过程中,存活在全血中的细胞在继续消耗营养物质并产生代谢产物,因此经过温孵不同时间制备的血浆或者血清代谢谱出现了连续的动态变化(图4)。2 数据的权重值得重视的是,代谢组学数据在进行主成分分析之前,常需要对数据进行适当权重/转换。因为代谢组学数据中所含有的变量通常取值范围大、变异也大。如果直接采用主成分分析这种最大化差异投影的方法,往往造成绝对数值大、变异较大的变量在模型拟合中的贡献占主导地位,而绝对数值范围小、变异小的变量对模型的贡献也小。为了消除这种偏重,可以对数据进行合理的权重(weighting)或缩放(scaling)。虽然有多种权重的方法,但主成分分析以等方差法(UV,u2nitvariance)最为常用。其方法是先计算每一个检测变量的标准偏差(standarddeviation,Sk),获得权重因子为Sk的倒数(1/Sk),然后对此变量乘以1/Sk进行权重。经过如此权重后使每个变量均具有相同的方差,不造成对变量的歧视,有利于数据的分析和比较。在成功地“均方差”后,再计算每个变量的平均值,用每个变量数据减去该平均值就可以使数据均匀分布在0轴附近,这个过程称作平均值中心化(mean-centering)。数据经过上述两个步骤处理后通常可以提高模型的有效性和预测能力。以Simca-P软件为例,上述的数据预处理过程是其默认方式。该软件还提供了其它权重方法,详见有关参考书籍。图3 PCA分析血浆与血清样品的得分图(样品分布散点图)P:plasma;S:serum;M:male;F:female PCA分析的目的不仅仅是发现样品之间的异同,更重要的是在大量数据中发现造成上述差异的具体分子。这些分子可以为深入研究样品的内在差异、寻找生物标志物、研究疾病的发病机理、药物作用的机理、药物毒性发生机理等提供重要信息。与得分图相对应,PCA分析中还可以得到载荷图(LoadingsPlot),载荷图表示了所检测3 PCA模型的得分图和载荷图PCA分析可以得到两类分布图,一种常称为
中国临床药理学与治疗学2010May;15(5)·485·以SIMCA2P为例,模型的验证主要参考R2、222Q等参数,R是所解释的模型差异,Q是所预测22的模型差异。R、Q计算方法如下:22R=1-RSS/SSX;Q=1-PRESS/SSX(其中SSX表示平均值中心化后模型数据的总变异)R比较容易理解,但模型如何能得到一个预2的变量(如MS中色谱峰、NMR中的化学位移)分布情况,载荷图中的变量分布与得分图中样品分布和位置相对应(图5)。利用PCA模型,可以比较容易地从大量变量中鉴定出在样品间或组间差异化合物,然后只对这些差异进行进一步鉴定。避免了逐个对所有化合物进行统计分析的麻烦,提高了分析效率。当然,采用载荷图寻找差异化合物是一个比较简便、粗略的方法,对差异化合物的显著性检验最终的标准仍然是常规的统计分析方法,如T检验、方差分析等。测值?事实上,在计算PCA模型时,软件(如SIMCAP)通常把数据随即分成7组,用其中6组数据作为基础计算一个基本模型,用此模型来预测另外一组的准确程度,并反复多次,得到Q2值。2因此,理论上说R2、Q数值越接近1说明模型越好,越低说明模型的拟合准确性越差,通常情况2下,R2、Q高于0.5(50%)较好,且两者差值不应2过大。应当注意,R2、Q值与主成分的数目密切有2关,通常情况下,选择的主成分越多,R2、Q值也越大,当增加主成分只能增加R2而Q2值不再增加时就应该终止计算新的主成分,因为继续增加主成分对模型不再有意义。这里需要特别注意模型是否拟合过度,过度拟合也会导致模型的失真,图4 PCA分析血浆与血清样品在温孵不同时间后的得分图(样品分布散点图)发现全血温孵前后(0、1、2、3、4小时)制备的血浆或者血清分布散点出现连续自上而下的动态变化,提示PCA方法可以表现样品内分子的连续动态变化过程。P:plasma;S:serum.P0;□,P1;○,P2;◇,P3;△,P4;■,S1;●,S2;◆,S3;▲,S4.此部分内容可以参考相关文献。5 无监督分析和有监督分析在不对样品加以分组的情况下进行数据分析的方法称为无监督分析方法(un-superviseda2nalysis)。这种方法因没有外加任何人为因素,计算出的PCA模型反映了数据的原始状态,有利于了解数据的整体情况并对数据从整体上进行把握,特别有利于发现和剔除异常样品,提高模型的准确性。因无监督分析的方法对所有样品不加以区分,即每个样品都对模型有着同样的贡献,因此,当样品的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间差异;而当样品的组间差异不明显,而组内差异较大时,无监督分析方法难以发现和区分组间差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。这种情况下,无监督分析难以得出正确的结论。究其原因,关键在于无监督分析方法不能忽略组内误差、消除与研究目的无关的随机误差,过分关注于细节、忽略了整体和规律,最终不利于发现组间差异和差异化合物,而这一点恰恰是代谢组学研究的最重要的目的。4 模型的验证经过PCA计算出的数学模型是否可靠需要进行严格的验证。不可靠的数学模型不仅不能很好地描述代谢组学数据特点,还可能严重影响正确结果的获得甚至误导分析结果。交叉验证(Cross-Validation)是检验PCA模型有效性的一种实用可靠的方法[1]。交叉验证的基本思想是先利用一部分数据建立模型,预测另外一部分不参与模型计算的数据,将预测值和真实值之间进行比较。此预测值与观察值之差的平方和即预测残差平方和(predictiveresidualsumofsquares,PRESS),此参数是度量测试模型的预测能力的指标。以SIMCA-P软件为例,每计算一个主成分就会得到一个PRESS值,将其与前面低一维数学模型的残差平方和(RSS)进行比较,当PRESS明显大于RSS时,说明新计算的主成分没有意义,模型计算即终止。
·486·这个问题可以通过采用有监督分析(supervisedanalysis)的方法加以解决。有监督分析就是先将检测样品按照类别进行分组,再进行分析,这时在计算数学模型时计算机就把各组加以区分,忽略组内的随机差异,突出组间系统差异。以代谢组学数据处理中最常用的软件SIMCA-P为例,将上述图4中男性和女性血清样品按照无监督分析方法(PCA)进行分析,发现该模型不能有效区分血清的性别差异(图6A);而该组数据采用有监督分析方法进行分析,如选择偏最小二乘投影判别(Partialleastsquaresprojectiontolatentstruc2ture2discriminantanalysis,PLSDA)法进行分析,得到的样品分布散点图显示两组样品区分显ChinJClinPharmacolTher2010May;15(5)著(图6B),说明血清样品存在明显的性别差异。图5 无监督分析方法(PCA)和有监督分析方法(PLS2DA)对相同数据进行分析后的不同效果A:无监督分析方法(PCA)不能有效区分血清的性别差异;B:有监督分析方法(PLSDA)分析显示两组样品区分显著。图6 无监督分析方法(PCA)和有监督分析方法(PLSDA)对相同数据进行分析后的不同效果A:无监督分析方法(PCA)不能有效区分血清的性别差异;B:有监督分析方法(PLSDA)分析显示两组样品区分显著。6 异常样品的鉴别采用主成分方法进行数据分析时,需要注意是否有特别异常的样品。因为异常的样品可能严重影响模型结构,导致模型严重失真。异常样品常是因为各种因素所引起,可能是样品自身因素(如该样品受到污染、病人伴随其它严重疾病、遗传学异常),也有可能是在处理过程中外界因素(如人为处理不当、仪器偶然测定误差)等引起。一般情况下,在大量样品中出现个别异常样品是正常现象,可以通过剔除加以解决,但当发现异常样品过多(达到或超过样品总数的5%),就应该考虑到实验设计和样品等因素,样品不能随意加以剔除。特别异常的样品可以通过无监督分析的分布散点图加以鉴别,而一般异常的样品可以通过计算各个样品与模型距离(Distancetomodel,Dmodx)是否超过限定值(P=0.05)来确定。以样品分布散点图为例,异常样品还可以分为两类,一类是明显不同于所有研究样品,如图4中的PM7,在该项研究中除PM7外,所有志愿者年龄均在24~30岁之间,采集了空腹静脉血,PM7是惟一一个餐后采集血液,且年龄超过40岁的志愿者。另一类是明显不同于同组样品,却近似于其它组样品,如图7中的5893也是异常样品。因为根据实验小鼠的类别,所有■小鼠均为野生型小鼠,而●均为超氧化歧化酶(SOD)基因敲除小鼠。该研究结果公布后引起了有关专家的强烈质疑,但随后的遗传学检查发现5893为基因敲除不完全(即杂合子)小鼠。证明代谢组学能较好地描述体内分子状态,在进行数据分析时,这类异常样品在分组分析时必须剔除。
中国临床药理学与治疗学2010May;15(5)·487·数据集,进行PLS分析。w3c[1]、w3c[2]作图发现甲醇有利于血浆中绝大部分分子的提取[3](图8)。t1、u1作图分析显示右上角的21、14、18、24、29、9、17进样号的样品提取效率最高(图9),且X数据集与Y数据集呈现较好相关性。7 偏最小二乘投影关联分析(partialleastsquaresprojecttolatentstructure,PLS)[1] 与PCA分析的原理相同,PLS利用偏最小二乘法对数据结构进行投影分析。但PLS与PCA数据有本质的不同,PCA分析方法中只有一个数据集X,所有分析都只是基于这个唯一的数据集,对应于一个多维空间。而PLS分析是建立两个数据集X和Y基础上的,因此也对应地存在两个多维空间,在利用投影方法计算PLS第一个主成分后,分别得到X和Y空间的两条轴线以及各个样品点在X和Y空间轴上的得分t1、u1。对X和Y数据的关联分析就是将所有样品在X和Y空间第一个主成分轴上的得分t1、u1分别作相关分析,可以表示为ui1=ti1+ri1,i表示不同样品,ri1表示残差。对应地,经过第二个主成分计算可图7 无监督分析模式(PCA)可以发现明显异常的样品PCA分析显示●5893_1与●5893_2明显不同于同组的其它超氧化歧化酶(SOD)基因敲除小鼠,判断是第二类异常样品。以得到的t2、u2,有关系式ui2=ti2+ri2,i表示不同样品,ri2表示残差。如果用t1、t2对应作图得到数据集X的PCA得分图,如果用u1、u2对应作图得到数据集Y的PCA得分图。而如果用t1、u1作图就表示第一个主成分下数据集X与数据集Y相关性,如果各点呈现出一条成45度角的直线,说明两组数据完全相关。相反,如果散点不呈线性、分布松散,说明两组数据关联不强。与PCA的载荷图(变量分布散点图)相类似,PLS可以用权重方式对X、Y数据集中的变量进行相关联,找出变量之间的关系。如在SIMCA-P软件中,以w作为X数据集权重,c作为Y数据集的权重,第一个主成分可以得到X、Y数据综合权重w3c[1],第二个主成分可以得到X、Y数据综合权重w3c,以w3c[1]、w3c[2]作图就可以直观地显示两个数据集的变量之间相关性。这一点在研究药物构效关系、构动关系、疾病高危因素、实验设计关键因素、变量的变化规律等方面十分有用。 在代谢组学研究中,X往往是代谢组学检测得到的数据集,Y可以是试验设计的因变量,也可以是目标变量(如临床数据),PLS就是采用关联的方法分析X、Y数据集并发现规律性。例如我们在筛选最佳提取溶剂提取血浆中内源性小分子时,将实验设计方案中的有机溶剂不同组成作为Y数据集[3]图8 X数据集变量与Y数据集变量之间对应关系PLS分析图(w3c[1]-w3c[2])大部分化合物(X数据集变量)靠近右侧甲醇(Y数据集变量)位置,说明甲醇有利于血浆中绝大部分分子的提取(JiyeA,icalChemistry,2005,77,8086-8094.)图9 X数据集与Y数据集之间整体对应关系PLS分析图(t1-u1)提示右上角的21、14、18、24、29、9、17样品提取效率高,而左下角效率低(JiyeA,icalChemistry,2005,77,8086-8094),而把GC/TOFMS检测结果作为X
·488·ChinJClinPharmacolTher2010May;15(5)8 偏最小二乘投影判别分析(PLSDA)与PCA原理相似,偏最小二乘判别分析(discriminantanalysis,DA)只需要一个数据集X,但在分析时必须对样品进行指定并分组,这样分组后模型自动加上另外一个隐含的数据集Y,该数据集变量数等于组别数,赋值时把指定的那一组规定为1,其它所有值均为0。其它计算方法与PLS相同。这种模型计算的方法强行把各组分门别类,有利于发现组间的异同点。例如上述的图7,PCA方法无法区分的样品在PLSDA模型中比较容易加以区分。OPLS模型可以增强模型的有效性和对新样品的预测能力。10 正交2偏最小二乘投影判别分析(O2PLSDA) 常规的PLS使用X创建Y模型,目标是根据X模型来预测Y模型。然而,数据表X与Y不相关的系统变量可影响PLS分析模型,这可能使得表X、Y中的某些正相关被忽略。正交偏最小二乘投影分析方法(orthogonal-PLS,OPLS)将正交信号校正方法(orthogonalsignalcorrection,OSC)与PLS进行结合从而对PLS进行修正的分析方法,与OPLS相同,OPLSDA根据数据表Y的差异将数据表X的差异分为两个部分,第一部分代表与Y相关的差异,第二部分代表与Y不相关(正交垂直)的差异,OPLSDA可将这两部分差异进行区分。设计它是为了控制与Y直交或者无关的X的变化并加以滤除。同过这种方式,OPLSDA可以更好地区分组间差异,提高模型的有效性和解析能力。下面我们举一个例子来说明OPLSDA与PLSDA的差别。利用NMR分析正常男女血清9 噪音滤除与正交偏最小二乘投影分析不管采用何种测定方法检测样品,监测器总是将所有设定范围内的信号全部记录下来,因此最终得到的色谱图或解析结果中总是含有一些与研究无关的干扰信号。这些可能是样品处理过程中带入的杂质或产生的副产物,也可能是仪器检测的噪音(电流)干扰。滤除这些噪音有助于发现最重要的变量,减少不必要的分析鉴定工作,并在模型拟合时提高模型的有效性。正交偏最小二乘数据内在结构投影法(Orthogonal-PLS,OPLS)可以用于滤除与研究对象无关的噪音,是PLS方法的一种变化特例。即,OPLS将PLS中Y数据集减少为只有一个变量,而这个变量在比较的两组中的值被设定为一个极大、一个极小。这样,OPLS分析实际上就将原始数据矩阵X中系统差异分成两个部分,一部分变量与回归矩阵Y线性相关,另外一部分变量与回归矩阵线性无关,即正交(orthogonal)[2]。通过这种方式建立新的代谢图谱的差异。在获取样本时,为了保持样本的均一性,对受试者的饮食、生活方式等都作了严格的规定,但因为在实际操作中很难达到完全的一致性。为了尽量减少其它因素对试验结果的影响,分别用OPLSDA与PLSDA对正常男女的血清代谢图谱进行分析并进行比较,结果显示PLS2DA得分图中两组样品不能很好区分,而OPLS2DA得分图中的两组区分显著[4],即OPLSDA明显提高了模型的分辨能力(图10)。图10 OPLSDA与PLSDA对两组样品数据分别进行分析后效果图A:PLSDA;B:OPLSDA(冒海蕾,等.化学学报,2007,65(2):152-158)
中国临床药理学与治疗学2010May;15(5)469-479.·489·参考文献[1] ErikssonL,JohanssonE,Kettaneh-WoldN,-andmegavariatedataanalysisprinciplesandapplications[D].UmeatricsAcademy,Umet2ricsAB,Sweden.2001.[2] TryggJ,HolmesE,etricsinmetabonomics[J].JProteomeRes,2007,6(2):[3] AJ,TryggJ,GullbergJ,tionandGC/MSanalysisof(24):8086-8094.[4] 冒海蕾,徐旻,王斌,等.正交信号校正在正常成人thehumanbloodplasmametabolome[J].AnalyticalChemistry,2005,77血清1HNMR谱的代谢组分析中的滤噪作用评价[J].化学学报,2007,65(2):isofmetabolomicdata:principalcomponentanalysisJiyeAaKeyLabofDrugMetabolismandPharmacokinetics&LabofMetabolomics,ChinaPharmaceuticalUniversity,Nanjing21009,Jiangsu,ChinaABSTRACT Metabolomicshastionalstatisticanalysisisnotapplicabletothelarge,multivariatedatasetgen2eratedbyhigh-throughputmetabolomictool,whileit’ticlereviewsthebasicmethodsofprincipalcomponentsanalysis(PCA)thatispopularinmetabolomicsstudy,aimingatstrengtheningthefundamentalknowleDS Metabolomics;Principalcompo2nentsanalysis(PCA);Partialleastsquarespro2jecttolatentstructure(PLS);Partialleastsquaresprojecttolatentstructure-discriminantanalysis(PLS-DA);Orthogonalpartialleastsquaresprojecttolatentstructure(OPLS)本文编辑:余文涛《中国临床药理学与治疗学》2010年征订启事 本刊为中国科学技术协会主管,中国药理学会主办的全国性、学术性刊物,国家科技部中国科技论文统计源期刊,中国科技核心期刊。月刊,幅面尺寸280mm×205mm,120页,CN3421206/R,ISSN100922501。以从事新药研究、临床药理学与治疗学工作的高中级医疗、科研、教学人员为主要读者对象。设有专论、综述与讲座、基础研究、定量药理学(包括药代动力学、药效动力学及药物临床评价等)、临床药理学(包括药物基因组学及药物蛋白组学等)、药物治疗学、短篇报道、读者·作者·编者等栏目。2008年已被下列数据库收录:世界卫生组织(WHO)全球医学索引、中国知网、万方数据库、维普资讯、中国科协科技期刊论文数据库、中文生物医学期刊文献数据库(CMCC)、中国学术期刊文摘等。本刊国内邮发代号:26-165,国外邮发代号:2501Q。每期订价12元,全年144元。全国各地邮政局(所)均可办理订阅手续。也可随时汇款至本刊编辑部订阅。地址:安徽省芜湖市弋矶山医院内 中国临床药理学与治疗学杂志社邮编:241001E2mail:ccpt96@电话:、5739333网址: