2024年3月11日发(作者:机原)
主成分分析与主成分分析与因子分析的异
同
---------------------------------------------------------------------------------------------------------------------
ABSTRACT
设
=(X
1
,„,X
P
为标准化随机向量(p≥2),R为相关系数矩阵,
=(F
1
,„,F
m
为主成分向量,
=(Z
1
,„,Z
m
为因子向量,m≤p,为方便,因子、因子估计、因子得分用同一记号。
一、
问题的提出
主成分分析与R-型因子分析是多元统计分析中的两个重要方法,同是降维技术,应用范围十分广泛,但通过流行
甚广的SPSS软件调用这两种方法的过程命令,有些使用者容易出现混淆性错误,如《统计研究》2003年第12期
发表的论文《经济全球化程度的量化研究》(以下称《刘文》)、电子工业出版社2002年9月出版的《SPSS for
Windows 统计分析(第二版)》(以下称《卢书》)就是这种情况。是什么原因造成这些错误呢?主成分分析与
R-型因子分析到底有何异同呢?
经过对一些论文和一些SPSS软件教科书仔细查证分析、比较我们发现出错的主要原因在于有些使用者和SPSS软
件教科书作者对怎样用SPSS软件得出主成分分析与R-型因子分析的结果掌握不全面,对主成分分析与R-型因子
分析异同的认识不透彻。
经过仔细查证出现的错误有:
使用主成分分析时 ① 叙述主成分分析概念出错。②主成分F
求解出错,如
为单位矩阵,
=
中
(
的意义见表1)。③找不到主成分F
的命名依据,对主成分F
命名出错。④某变量X
k
被丢失。
⑤对
错误地进行旋转。⑥错误地进行回归求F
。⑦错误地把因子分析法(含初始因子分析法)当作主成分分
析法。
使用因子分析时①将因子分析的思想叙述为主成分分析的思想。②因子Z
i
的命名出错,如用因子得分函数对因子
Z
i
进行命名。③某变量X
k
被丢失。④将主成分或因子错误地表示为
系数矩阵特征值
与因子贡献v
i
的区
(
的意义见表1)。⑤不知相关
别,如综合因子得分函数Z
综
=
Z
i
中的v
i
错误地取为特征值
。
二、主成分分析与R-型因子分析数学模型的异同比较
相同之处:主成分分析与R-型因子分析都是对协差阵的逼近,都是打算降维解释数据集。具体为指标的正向化,
指标的标准化(SPSS软件自动执行),通过相关系数矩阵判断变量间的相关性,求相关系数矩阵的特征值和特征向
量, 主成分间、因子间线性无关,用累计贡献率(
%)、变量不出现丢失确定主成分、因子个数m, 前m个
主成分与前m个因子对X的综合贡献相同、是最大化的,命名依据都是主成分、因子与变量的相关系数。
不同之处:方差, 最大化方向,标准正交性, 应用上侧重等不同见表1。
主成分分析与因子分析计量上不同的显著性标志是方差。事实上,VarF
i
>(<) VarZ
i
=1,即F
i
的取值范围比Z
i
的
取值范围大(小);通常VarF
综
> VarZ
综
,即F
综
的取值范围比Z
综
的取值范围大,这些都肯定了主成分分析与因子
分析的计量值、评价体系不同。
结论:主成分分析与因子分析两种方法方差、最大化方向不同,直接导致主成分值、因子得分值、综合评价值和
应用侧重上不同,综合评价应该分开进行, 混淆在一起是不同计量值交替错误。
三、避免出错的方法步骤
1.主成分分析法和SPSS软件应用时一对一的正确步骤:
①
指标的正向化。
②指标数据标准化(SPSS软件自动执行).
③指标之间的相关性判定: 用SPSS软件
中表“Correlation Matrix(相关系数矩阵)”判定。
④确定主成分个数m:用SPSS软件中表“Total Variance Explained(总方差解释)” 的主成分方差累计贡献率
%、结合表“Component Matrix(初始因子载荷阵)”中变量不出现丢失确定主成分个数m。
⑤主成分F
i
表达式(这是SPSS软件及其教科书中没完善的地方):将SPSS软件中表“Component Matrix”中的
第i列向量除以第i个特征根的开根后就得到第i个主成分F
i
的变量系数向量(在“transform -->compute”中
进行计算),由此写出主成分
1 主成分分析与R-型因子分析的不同
区别项目
表达式与系数
矩阵
+
(
为特殊因子),
主成分分析数学模型: R-型因子分析数学模型:
=(
)
,
=(
„,
),
因子载荷矩阵
m
= (
)
=
,
是相应的特征值和单
2024年3月11日发(作者:机原)
主成分分析与主成分分析与因子分析的异
同
---------------------------------------------------------------------------------------------------------------------
ABSTRACT
设
=(X
1
,„,X
P
为标准化随机向量(p≥2),R为相关系数矩阵,
=(F
1
,„,F
m
为主成分向量,
=(Z
1
,„,Z
m
为因子向量,m≤p,为方便,因子、因子估计、因子得分用同一记号。
一、
问题的提出
主成分分析与R-型因子分析是多元统计分析中的两个重要方法,同是降维技术,应用范围十分广泛,但通过流行
甚广的SPSS软件调用这两种方法的过程命令,有些使用者容易出现混淆性错误,如《统计研究》2003年第12期
发表的论文《经济全球化程度的量化研究》(以下称《刘文》)、电子工业出版社2002年9月出版的《SPSS for
Windows 统计分析(第二版)》(以下称《卢书》)就是这种情况。是什么原因造成这些错误呢?主成分分析与
R-型因子分析到底有何异同呢?
经过对一些论文和一些SPSS软件教科书仔细查证分析、比较我们发现出错的主要原因在于有些使用者和SPSS软
件教科书作者对怎样用SPSS软件得出主成分分析与R-型因子分析的结果掌握不全面,对主成分分析与R-型因子
分析异同的认识不透彻。
经过仔细查证出现的错误有:
使用主成分分析时 ① 叙述主成分分析概念出错。②主成分F
求解出错,如
为单位矩阵,
=
中
(
的意义见表1)。③找不到主成分F
的命名依据,对主成分F
命名出错。④某变量X
k
被丢失。
⑤对
错误地进行旋转。⑥错误地进行回归求F
。⑦错误地把因子分析法(含初始因子分析法)当作主成分分
析法。
使用因子分析时①将因子分析的思想叙述为主成分分析的思想。②因子Z
i
的命名出错,如用因子得分函数对因子
Z
i
进行命名。③某变量X
k
被丢失。④将主成分或因子错误地表示为
系数矩阵特征值
与因子贡献v
i
的区
(
的意义见表1)。⑤不知相关
别,如综合因子得分函数Z
综
=
Z
i
中的v
i
错误地取为特征值
。
二、主成分分析与R-型因子分析数学模型的异同比较
相同之处:主成分分析与R-型因子分析都是对协差阵的逼近,都是打算降维解释数据集。具体为指标的正向化,
指标的标准化(SPSS软件自动执行),通过相关系数矩阵判断变量间的相关性,求相关系数矩阵的特征值和特征向
量, 主成分间、因子间线性无关,用累计贡献率(
%)、变量不出现丢失确定主成分、因子个数m, 前m个
主成分与前m个因子对X的综合贡献相同、是最大化的,命名依据都是主成分、因子与变量的相关系数。
不同之处:方差, 最大化方向,标准正交性, 应用上侧重等不同见表1。
主成分分析与因子分析计量上不同的显著性标志是方差。事实上,VarF
i
>(<) VarZ
i
=1,即F
i
的取值范围比Z
i
的
取值范围大(小);通常VarF
综
> VarZ
综
,即F
综
的取值范围比Z
综
的取值范围大,这些都肯定了主成分分析与因子
分析的计量值、评价体系不同。
结论:主成分分析与因子分析两种方法方差、最大化方向不同,直接导致主成分值、因子得分值、综合评价值和
应用侧重上不同,综合评价应该分开进行, 混淆在一起是不同计量值交替错误。
三、避免出错的方法步骤
1.主成分分析法和SPSS软件应用时一对一的正确步骤:
①
指标的正向化。
②指标数据标准化(SPSS软件自动执行).
③指标之间的相关性判定: 用SPSS软件
中表“Correlation Matrix(相关系数矩阵)”判定。
④确定主成分个数m:用SPSS软件中表“Total Variance Explained(总方差解释)” 的主成分方差累计贡献率
%、结合表“Component Matrix(初始因子载荷阵)”中变量不出现丢失确定主成分个数m。
⑤主成分F
i
表达式(这是SPSS软件及其教科书中没完善的地方):将SPSS软件中表“Component Matrix”中的
第i列向量除以第i个特征根的开根后就得到第i个主成分F
i
的变量系数向量(在“transform -->compute”中
进行计算),由此写出主成分
1 主成分分析与R-型因子分析的不同
区别项目
表达式与系数
矩阵
+
(
为特殊因子),
主成分分析数学模型: R-型因子分析数学模型:
=(
)
,
=(
„,
),
因子载荷矩阵
m
= (
)
=
,
是相应的特征值和单