最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

多因素方差分析

IT圈 admin 41浏览 0评论

2024年3月29日发(作者:巩春岚)

多因素方差分析一、析因设计资料的方差分析 两因素两水平 三因素多水平

析因设计的特点 必须是: 两个以上(处理)因素(factor)

(分类变量)。 两个以上水平(level)。 两个以上重复(repeat)。

每次试验涉及全部因素,即因素同时施加观察指标(观测值)为计量资

料(独立、正态、等方差)。析因设计的有关术语单独效应(simple effects):

其它因素的水平固定为某一值时,某一因素不同水平间的效应差异。主效应(main

effects):某因素各单独效应的平均效应。交互作用(Interaction):某一因素效

应随着另一因素变化而变化的情况。(如一级交互作用AB、二级交互作用ABC…)。

析因设计的优缺点 用相对较小样本量,获取更多的信息。可用来分析全

部主效应,单独效应以及因素间各级的交互作用。优点缺点 所需试验

的次数很多,如2因素,各3水平5次重复需要试验为45次。 例1:某

研究人员采用某法测定人血清C3(mg/L)值,问①不同保存温度下该法对C3的测定值

有无差异?不同保存时间下该法对C3的测定值有无差异?②保存时间与温度对测

定值无交互作用?保存温度20℃599820a2-a1326平均

14161336

(a2)13181316

1312013201天

(a1)37℃(b2)20℃(b1)b2-b1平均保存温度保存时间步骤①选择

Analyze→General Linear Model→Univariate,激活Univariate对话框。②在Univariate

对话框中,把变量“c3值”放入Dependent Variable,变量“保存时间”和“保存温度”放

入Fixed Factor(s)栏。单击Plots…按钮,激活Profile Plots对话框。③在Profile Plots

对话框中,把Factors栏中的变量“保存时间”放入Horizontal Axis栏,变量“保存温度”

放入Separate Lines栏,再单击Add按钮,会使变量“a*b”自动进入Plots栏,单击

Continue按钮返回。④在Univariate对话框中,单击Options…按钮。在Options对话

框中,把Factor(s) and Factor Interations栏中的变量“保存时间”、 “保存温度”、 和“保

存时间*保存温度”放入Display Means for栏;并在Display多选项中,选择Descriptive

statistics,Estimates of effect size,Homogeneity tests。单击Model…,选择默认项,

即Full factorial项(全析因模型),单击Continue按钮返回。⑤在Univariate对话框,

单击OK按钮得到Univariate过程的运行结果。结果均数分布图 例2, 用

5×2×2析因设计研究5种类型的军装在两种环境、两种活动状态下的散热效果,将100

名受试者随机等分20组,观察指标鞘苁哉叩闹鞴廴雀芯?从“冷”到“热”按等级评分),

结果见下表。试进行方差分析。战士主观感觉冷热等级评分完全随机的三因素

析因设计方差分析表 结果二、协方差分析完全随机设计的协方差

分析完全随机区组设计的协方差分析 一般地,均数间的比较可用t检验

或方差分析。要求比较组除了处理因素不同外,其它对结果有影响的因素要齐同或

均衡。 当影响结果的某个因素没有得到控制时,即对两组来说不齐同,这两

个均数就不能直接比较,需进行校正,得到的修正均数,再比较。

基本概念 协变量(covariate):对反应变量有影响的非处理因素。必须是

数值变量。 例如,在研究降压药物的疗效时,病人的初始血压水平对服药后血

压下降值是有影响的。如果不考虑病人初始血压水平的差异,直接比较不同处理组

病人的平均血压下降值,是不恰当的。 这里,处理因素? 协变量因素是?

观察协变量X对反应变量Y的影响是否存在线性关系。可建立应变量Y随协变量X变

化的线性回归关系,利用这种回归关系,固定X值,得到Y的修正均数,然后再比较

修正均数间差异。 其实质就是从Y的总平方和中扣除协变量X对Y的回归

平方和,对残差平方和作进一步分解后再进行方差分析,以更好地评价各种处理的

效应。 基本思想:是将线性回归分析与方差分析结合起来的一种统计分析方

法。 实例分析:为研究A、B、C三种饲料对猪的催肥效果。用每种饲料喂养8头

猪一段时间,测得每头猪的初始重量(X)和增重(Y)数据如下表。试分析三种饲

料对猪的催肥效果是否相同?表 三种饲料喂养猪的初始重量与增重(单位:

kg) X:初始重量;Y:增重 如果不考虑初始重量对增重的影响,那么本

例就是一个典型的完全随机设计类型的方差分析。 三组的初始重量(X)均数

不同,经采用两两比较,P值均小于0.05。在没有扣除X对Y的影响的情况下,提示

猪的初始重量与饲料的效应混杂。 采用协方差分析,将三组的初始体重化为

相等,以扣除其影响,再比较三种饲料的增重是否相同,即检验三组修正均数间的

差别有无统计学意义。 数据输入格式及步骤结果X(初始重量)的组间差异有统

计学意义。F=88.813,P<0.01;Group(饲料间)的差异(在扣除了初始体重后)

有统计学意义,F=31.071,P<0.01.在扣除了初始体重后得到的修正均数三、

两阶段交叉设计方差分析设计特点同一批受试对象,随机等分为两组,一组先

接受A处理,后再接受B处理;另外一批受试对象先接受B处理而后再接受A处理。

如此可使A处理和B处理有同等的机会处于两个实验阶段。这种设计可分析三种变

异,即两种处理间的差异,两个阶段之间的差异受试对象之间的差异。例:为比

较血液透析过程中,低分子肝素钙(A)与速避凝(B)对凝血酶原时间(TT)的影响,

选择20例接受血液透析的病人为研究对象,采取二阶段交叉设计,实验数据如表下

表,试分析之。结果多变量的统计分析方法兰州大学流行病与卫生统计研究

所申希平E-mail:**************.cn2007.12Logistic回归分析用途通过一

组自变量(X1…Xn),采用Logistic回归,可以预测一个因(分类)变量每一个分

类所发生的概率。它是研究二(多)分类观察结果与一些影响因素之间关系的一种

多变量分析方法。自变量可以是分类变量,也可以是连续变量,或者兼而有之。

在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,如食道癌的

发生与吸烟、饮酒、不良饮食习惯等危险因素的关系,为了正确说明这种关系,需

要排除一些混杂因素的影响。 由于因变量Y是二(多)分类的,不满足线性回

归的条件,故应该用Logistic回归!二项分类Logistic回归条件1:m配对Logistic

回归例:前列腺癌细胞是否扩散到邻近的淋巴结,是选择治疗方案的重要依据。为

了了解淋巴组织中有无癌转移,通常的做法是对病人实施剖腹术探查,并在显微镜

下检查淋巴组织。为了不手术而又能弄清淋巴结的转移情况,Brown(1980)在术前检

查了53例前列腺癌患者,分别记录了年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型

的变量,X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小

与位置(STAGE)三个分类变量。 后三个变量均按0、1赋值,其值1表示

阳性或较严重情况,0表示阴性或较轻情况。还有手术探查结果变量NODES, 1表

示有淋巴结转移,0表示无淋巴结转移。分析目的:1.影响前列腺癌细胞淋巴结转

移的因兀? 2.建立淋巴结转移的预报模型。 1. 数据格式:

见??因变量(结果变量):NODES为二分类变量。 1为„有淋巴

结转移‟,0为„无淋巴结转移‟。??自变量(危险因素):自变量可以是定量、二

分类和等级的。?? 本例年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量,

X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置

(STAGE)三个分类变量。 2. SPSS的分析过程: Analyze→Regression→Binary

Logistic?? 进入二分类Logistic回归分析对话窗。?? Dependent窗:只能选

入一个变量,将NODES 选入。 Covariates窗:将AGE、ACID、X_RAY、GRADE、

STAGE选入。 Method:默认Enter。也可用变量筛选方法的选择。Categorical

对话框:用于分类变量的资料,选入X_RAY、GRADE、STAGE。Save对话框:存

入新变量。Options对话框: 选Statistics and Plots:

Hosmer-Lemeshow goodness-of-fit CI for exp 95% 3.主要结果:★

全回归模型: ①模型的检验: Omnibus Tests of Model Coefficients ②模型的

拟和优度检验: ③参数估计及检验: XRAY, GRADE, STAGE, AGE, ACID

对影响淋巴结转移的相对危险度分别为7.732、2.141、4.778、0.933、1.025。 对

XRAY和STAGE, P<0.05,XRAY和STAGE的95%的可信区间未包含1,有统计学

意义。 对GRADE, AGE, ACID,P>0.05。 得到Logistic预测概率模型为:

★逐步回归模型:得到线性预测方程为:例2 在研究医院抢救急性心肌梗塞

(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该院所有的AMI患者的

抢救病史共200例。 Y=0抢救成功,Y=1示抢救未能成功; X1=1抢救前

已休克,X1=0抢救前未休克; X2=1抢救前心衰,X2=0抢救前未心衰; X3=1

到抢救时已超过12小时,X3=0未超时。 本例将该医院所有AMI患者看作是AMI

总体中的一个随机样本,同时收集研究对象抢救病史和抢救结果资料,因此属横断

面调查。 研究目的:分析影响抢救死亡率的因素; 建立

预测抢救成功的模型。AMI患者的抢救危险因素资料 ??=1.11是变量X1的

Logistic回归系数,exp(1.11)= 3.033是其它变量取值固定时,休克与没休克相比死亡

的优势比(OR),在死亡率较低时,该值近似说明有休克与无休克相比死亡风险增加

的倍数。本例,3个因素的回归系数均为正值,说明休克、心衰和未能及时抢救都

是增加死亡优势的危险因素。条件logistic回归条件logistic回归(conditional logistic

regression)是针对配对资料分析的一种方法。在流行病学的病例-对照研究中,为了

控制一些重要的混杂因素,常把病例和对照按照年龄、性别等条件进行配对,形成多

个匹配组(每一匹配组可视为一个层)。从原理上讲各匹配组的病例数和对照人数

是任意的,但最常用的是每组中有一个病例和若干个对照,即1:M配对研究(一般

M≤3)。注意: 回归的常数项因同一层病例和对照的基线患病(发

病)概率相同被抵消掉了,因此不能作预测,只能作因素分析。 回归系数

表示病例与对照变量值之差与患病优势的关系,即exp(β)表示病例与对照暴露水平

相差一个单位时患病的优势比。 例:某北方城市研究喉癌发病的危险因素,用1:2

配对的病例??对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数

据,各因素的赋值说明见下表,资料见数据文件。试作条件logistic逐步回归分析。

病例=1, 对照=0Y是否患喉癌无=0, 有=1X6癌症家族史很少=1, 少量

=2, 经常=3X5摄食水果少=1, 经常=2, 每天=3X4摄食新鲜蔬菜无=1, 偶

尔=2, 经常=3X3声嘶史0=1, 1??4=2, 5??9=3, 10??20=4, 20??=5X2吸烟量(支

/日)无=1, 偶尔=2, 经常=3X1咽炎赋值说明变量名因素表16-6 喉癌的

危险因素与赋值说明SPSS步骤1、计算新变量 compute t=2-Y;

2、

2024年3月29日发(作者:巩春岚)

多因素方差分析一、析因设计资料的方差分析 两因素两水平 三因素多水平

析因设计的特点 必须是: 两个以上(处理)因素(factor)

(分类变量)。 两个以上水平(level)。 两个以上重复(repeat)。

每次试验涉及全部因素,即因素同时施加观察指标(观测值)为计量资

料(独立、正态、等方差)。析因设计的有关术语单独效应(simple effects):

其它因素的水平固定为某一值时,某一因素不同水平间的效应差异。主效应(main

effects):某因素各单独效应的平均效应。交互作用(Interaction):某一因素效

应随着另一因素变化而变化的情况。(如一级交互作用AB、二级交互作用ABC…)。

析因设计的优缺点 用相对较小样本量,获取更多的信息。可用来分析全

部主效应,单独效应以及因素间各级的交互作用。优点缺点 所需试验

的次数很多,如2因素,各3水平5次重复需要试验为45次。 例1:某

研究人员采用某法测定人血清C3(mg/L)值,问①不同保存温度下该法对C3的测定值

有无差异?不同保存时间下该法对C3的测定值有无差异?②保存时间与温度对测

定值无交互作用?保存温度20℃599820a2-a1326平均

14161336

(a2)13181316

1312013201天

(a1)37℃(b2)20℃(b1)b2-b1平均保存温度保存时间步骤①选择

Analyze→General Linear Model→Univariate,激活Univariate对话框。②在Univariate

对话框中,把变量“c3值”放入Dependent Variable,变量“保存时间”和“保存温度”放

入Fixed Factor(s)栏。单击Plots…按钮,激活Profile Plots对话框。③在Profile Plots

对话框中,把Factors栏中的变量“保存时间”放入Horizontal Axis栏,变量“保存温度”

放入Separate Lines栏,再单击Add按钮,会使变量“a*b”自动进入Plots栏,单击

Continue按钮返回。④在Univariate对话框中,单击Options…按钮。在Options对话

框中,把Factor(s) and Factor Interations栏中的变量“保存时间”、 “保存温度”、 和“保

存时间*保存温度”放入Display Means for栏;并在Display多选项中,选择Descriptive

statistics,Estimates of effect size,Homogeneity tests。单击Model…,选择默认项,

即Full factorial项(全析因模型),单击Continue按钮返回。⑤在Univariate对话框,

单击OK按钮得到Univariate过程的运行结果。结果均数分布图 例2, 用

5×2×2析因设计研究5种类型的军装在两种环境、两种活动状态下的散热效果,将100

名受试者随机等分20组,观察指标鞘苁哉叩闹鞴廴雀芯?从“冷”到“热”按等级评分),

结果见下表。试进行方差分析。战士主观感觉冷热等级评分完全随机的三因素

析因设计方差分析表 结果二、协方差分析完全随机设计的协方差

分析完全随机区组设计的协方差分析 一般地,均数间的比较可用t检验

或方差分析。要求比较组除了处理因素不同外,其它对结果有影响的因素要齐同或

均衡。 当影响结果的某个因素没有得到控制时,即对两组来说不齐同,这两

个均数就不能直接比较,需进行校正,得到的修正均数,再比较。

基本概念 协变量(covariate):对反应变量有影响的非处理因素。必须是

数值变量。 例如,在研究降压药物的疗效时,病人的初始血压水平对服药后血

压下降值是有影响的。如果不考虑病人初始血压水平的差异,直接比较不同处理组

病人的平均血压下降值,是不恰当的。 这里,处理因素? 协变量因素是?

观察协变量X对反应变量Y的影响是否存在线性关系。可建立应变量Y随协变量X变

化的线性回归关系,利用这种回归关系,固定X值,得到Y的修正均数,然后再比较

修正均数间差异。 其实质就是从Y的总平方和中扣除协变量X对Y的回归

平方和,对残差平方和作进一步分解后再进行方差分析,以更好地评价各种处理的

效应。 基本思想:是将线性回归分析与方差分析结合起来的一种统计分析方

法。 实例分析:为研究A、B、C三种饲料对猪的催肥效果。用每种饲料喂养8头

猪一段时间,测得每头猪的初始重量(X)和增重(Y)数据如下表。试分析三种饲

料对猪的催肥效果是否相同?表 三种饲料喂养猪的初始重量与增重(单位:

kg) X:初始重量;Y:增重 如果不考虑初始重量对增重的影响,那么本

例就是一个典型的完全随机设计类型的方差分析。 三组的初始重量(X)均数

不同,经采用两两比较,P值均小于0.05。在没有扣除X对Y的影响的情况下,提示

猪的初始重量与饲料的效应混杂。 采用协方差分析,将三组的初始体重化为

相等,以扣除其影响,再比较三种饲料的增重是否相同,即检验三组修正均数间的

差别有无统计学意义。 数据输入格式及步骤结果X(初始重量)的组间差异有统

计学意义。F=88.813,P<0.01;Group(饲料间)的差异(在扣除了初始体重后)

有统计学意义,F=31.071,P<0.01.在扣除了初始体重后得到的修正均数三、

两阶段交叉设计方差分析设计特点同一批受试对象,随机等分为两组,一组先

接受A处理,后再接受B处理;另外一批受试对象先接受B处理而后再接受A处理。

如此可使A处理和B处理有同等的机会处于两个实验阶段。这种设计可分析三种变

异,即两种处理间的差异,两个阶段之间的差异受试对象之间的差异。例:为比

较血液透析过程中,低分子肝素钙(A)与速避凝(B)对凝血酶原时间(TT)的影响,

选择20例接受血液透析的病人为研究对象,采取二阶段交叉设计,实验数据如表下

表,试分析之。结果多变量的统计分析方法兰州大学流行病与卫生统计研究

所申希平E-mail:**************.cn2007.12Logistic回归分析用途通过一

组自变量(X1…Xn),采用Logistic回归,可以预测一个因(分类)变量每一个分

类所发生的概率。它是研究二(多)分类观察结果与一些影响因素之间关系的一种

多变量分析方法。自变量可以是分类变量,也可以是连续变量,或者兼而有之。

在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,如食道癌的

发生与吸烟、饮酒、不良饮食习惯等危险因素的关系,为了正确说明这种关系,需

要排除一些混杂因素的影响。 由于因变量Y是二(多)分类的,不满足线性回

归的条件,故应该用Logistic回归!二项分类Logistic回归条件1:m配对Logistic

回归例:前列腺癌细胞是否扩散到邻近的淋巴结,是选择治疗方案的重要依据。为

了了解淋巴组织中有无癌转移,通常的做法是对病人实施剖腹术探查,并在显微镜

下检查淋巴组织。为了不手术而又能弄清淋巴结的转移情况,Brown(1980)在术前检

查了53例前列腺癌患者,分别记录了年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型

的变量,X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小

与位置(STAGE)三个分类变量。 后三个变量均按0、1赋值,其值1表示

阳性或较严重情况,0表示阴性或较轻情况。还有手术探查结果变量NODES, 1表

示有淋巴结转移,0表示无淋巴结转移。分析目的:1.影响前列腺癌细胞淋巴结转

移的因兀? 2.建立淋巴结转移的预报模型。 1. 数据格式:

见??因变量(结果变量):NODES为二分类变量。 1为„有淋巴

结转移‟,0为„无淋巴结转移‟。??自变量(危险因素):自变量可以是定量、二

分类和等级的。?? 本例年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型的变量,

X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置

(STAGE)三个分类变量。 2. SPSS的分析过程: Analyze→Regression→Binary

Logistic?? 进入二分类Logistic回归分析对话窗。?? Dependent窗:只能选

入一个变量,将NODES 选入。 Covariates窗:将AGE、ACID、X_RAY、GRADE、

STAGE选入。 Method:默认Enter。也可用变量筛选方法的选择。Categorical

对话框:用于分类变量的资料,选入X_RAY、GRADE、STAGE。Save对话框:存

入新变量。Options对话框: 选Statistics and Plots:

Hosmer-Lemeshow goodness-of-fit CI for exp 95% 3.主要结果:★

全回归模型: ①模型的检验: Omnibus Tests of Model Coefficients ②模型的

拟和优度检验: ③参数估计及检验: XRAY, GRADE, STAGE, AGE, ACID

对影响淋巴结转移的相对危险度分别为7.732、2.141、4.778、0.933、1.025。 对

XRAY和STAGE, P<0.05,XRAY和STAGE的95%的可信区间未包含1,有统计学

意义。 对GRADE, AGE, ACID,P>0.05。 得到Logistic预测概率模型为:

★逐步回归模型:得到线性预测方程为:例2 在研究医院抢救急性心肌梗塞

(AMI)患者能否成功的危险因素调查中,某医院收集了5年中该院所有的AMI患者的

抢救病史共200例。 Y=0抢救成功,Y=1示抢救未能成功; X1=1抢救前

已休克,X1=0抢救前未休克; X2=1抢救前心衰,X2=0抢救前未心衰; X3=1

到抢救时已超过12小时,X3=0未超时。 本例将该医院所有AMI患者看作是AMI

总体中的一个随机样本,同时收集研究对象抢救病史和抢救结果资料,因此属横断

面调查。 研究目的:分析影响抢救死亡率的因素; 建立

预测抢救成功的模型。AMI患者的抢救危险因素资料 ??=1.11是变量X1的

Logistic回归系数,exp(1.11)= 3.033是其它变量取值固定时,休克与没休克相比死亡

的优势比(OR),在死亡率较低时,该值近似说明有休克与无休克相比死亡风险增加

的倍数。本例,3个因素的回归系数均为正值,说明休克、心衰和未能及时抢救都

是增加死亡优势的危险因素。条件logistic回归条件logistic回归(conditional logistic

regression)是针对配对资料分析的一种方法。在流行病学的病例-对照研究中,为了

控制一些重要的混杂因素,常把病例和对照按照年龄、性别等条件进行配对,形成多

个匹配组(每一匹配组可视为一个层)。从原理上讲各匹配组的病例数和对照人数

是任意的,但最常用的是每组中有一个病例和若干个对照,即1:M配对研究(一般

M≤3)。注意: 回归的常数项因同一层病例和对照的基线患病(发

病)概率相同被抵消掉了,因此不能作预测,只能作因素分析。 回归系数

表示病例与对照变量值之差与患病优势的关系,即exp(β)表示病例与对照暴露水平

相差一个单位时患病的优势比。 例:某北方城市研究喉癌发病的危险因素,用1:2

配对的病例??对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数

据,各因素的赋值说明见下表,资料见数据文件。试作条件logistic逐步回归分析。

病例=1, 对照=0Y是否患喉癌无=0, 有=1X6癌症家族史很少=1, 少量

=2, 经常=3X5摄食水果少=1, 经常=2, 每天=3X4摄食新鲜蔬菜无=1, 偶

尔=2, 经常=3X3声嘶史0=1, 1??4=2, 5??9=3, 10??20=4, 20??=5X2吸烟量(支

/日)无=1, 偶尔=2, 经常=3X1咽炎赋值说明变量名因素表16-6 喉癌的

危险因素与赋值说明SPSS步骤1、计算新变量 compute t=2-Y;

2、

发布评论

评论列表 (0)

  1. 暂无评论