2023年12月17日发(作者:晋海颖)
§8.6 因子分析的spss实现
在前面,我们用SPSS的Factor Analysis模块实现了主成分分析,实际上,Factor Analysis主要是SPSS软件进行因子分析的模块,由于主成分分析与因子分析(特别是因子分析中的主成分法)之间有密切的关系,SPSS软件将这两种分析方法放到同一模块中。
下面我们先用SPSS软件自带的数据说明Factor Analysis模块进行因子分析的方法,然后给出一个具体案例。为了与主成分分析进行比较,我们此处仍延用SPSS自带的Employee
数据集。
【例8.6.1】 数据集中各变量解释说明见上一章主成分分析,用Factor
Analysis模块进行因子分析。
打开数据集并依次选分析(Analyze) =>降维(Dimension reduction)=>因子分析(Factor)打开因子分析(Factor)对话框:
变量x1-x8进入Variables窗口。
点击对话框右侧的Extraction进入Extration对话框,在Method选项框我们看到SPSS默认是用主成分法提取因子,
在Analyze框架中看到是从分析相关阵的结构出发求解公因子。点Continue按钮继续。如果这样交由程序运行的话,将得到与主成分分析同样的结果,其中包括公因子解释方差的比例,因子载荷矩阵(即Component Matrix) 等。
选中scores => Display factor score coefficient matrix复选框,它要求SPSS输出因子得分矩阵,即标准化主成分(因子)用原始变量线性表示的系数矩阵。
点Continue继续,点OK按钮运行,可以得到如下输出结果:
Communalities
100m(秒)
200m(秒)
400m(秒)
Initial
1.000
1.000
1.000
Extraction
.668
.752
.838
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
1.000
1.000
1.000
1.000
1.000
.900
.920
.879
.891
.774
Extraction Method: Principal Component
Analysis.
Total Variance Explained
Component
1
2
3
4
5
6
7
8
Total
6.622
.878
.159
.124
.080
.068
.046
.023
Initial Eigenvalues
% of Variance
82.777
10.970
1.992
1.551
.999
.850
.580
.283
Cumulative %
82.777
93.747
95.739
97.289
98.288
99.137
99.717
100.000
Extraction Sums of Squared Loadings
Total
6.622
% of Variance
82.777
Cumulative %
82.777
Extraction Method: Principal Component Analysis.
Component Matrix
a
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.817
.867
.915
.949
.959
.938
.944
.880
Extraction Method: Principal
Component Analysis.
Component Matrix
a
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.817
.867
.915
.949
.959
.938
.944
.880
Extraction Method: Principal
Component Analysis.
a. 1 components extracted.
Component Score Coefficient
Matrix
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.123
.131
.138
.143
.145
.142
.143
.133
Extraction Method: Principal
Component Analysis.
Component Scores.
Total Variance Explained
Component
1
2
3
4
5
6
7
8
Total
6.622
.878
.159
.124
.080
.068
.046
.023
Initial Eigenvalues
% of Variance
82.777
10.970
1.992
1.551
.999
.850
.580
.283
Cumulative %
82.777
93.747
95.739
97.289
98.288
99.137
99.717
100.000
Extraction Sums of Squared Loadings
Total
6.622
.878
% of Variance
82.777
10.970
Cumulative %
82.777
93.747
Extraction Method: Principal Component Analysis.
Component Matrix
a
100m(秒)
200m(秒)
400m(秒)
800m(分)
Component
1
.817
.867
.915
.949
2
.531
.432
.233
.012
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
.959
.938
.944
.880
-.131
-.292
-.287
-.411
Extraction Method: Principal Component
Analysis.
a. 2 components extracted.
Component Score Coefficient Matrix
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.123
.131
.138
.143
.145
.142
.143
.133
2
.605
.493
.265
.013
-.149
-.333
-.328
-.469
Extraction Method: Principal Component
Analysis.
Component Scores.
得到初始载荷矩阵与公因子后,为了解释方便往往需要对因子进行旋转,设置好其他选项后点击Factor Analysis对话框下部的Rotation…按钮,进入Rotation对话框,在Method框架中可以看到SPSS给出了多种进行旋转的方法,系统默认为不旋转。可以选择的旋转方法有Varimax(方差最大正交旋转)、Direct Oblimin(直接斜交旋转)、Quartmax(四次方最大正交旋转)、Equamax(平均正交旋转)及Promax(斜交旋转), 选中Varimax选项,此时,Display框架中Rotated solution选项处于活动状态,选中该选项以输出旋转结果。点击Contunue→OK运行,除上面的结果外还可得到如下输出结果6.3:
输
Rotated Component Matrixa1Component23Educational Level.812-.3063.616E-02(years)Current Salary.944-2.1E-026.552E-02Beginning Salary.946.133-5.0E-02Months since Hire2.285E-022.928E-03.999Previous Experience-4.7E-02.9834.355E-03(months)Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.a.
Rotation converged in 4 iterations.
Component Transformation MatrixComponent1231.990-.134.0462.137.989-.0583-.038.064.997Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Score Coefficient Matrix1Educational Level(years)Current SalaryBeginning SalaryMonths since HirePrevious Experience(months).314.388.403-.017.051Component2-.229.049.193.011.9213.013.040-.074.994.012
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Scores.
由结果可以看到,旋转后公共因子解释原始数据的能力没有提高,但因子载荷矩阵及因子得分系数矩阵都发生了变化,因子载荷矩阵中的元素更倾向于0或者正负1。
有时为了公因子的实际意义更容易解释,往往需要放弃公因子之间互不相关的约束而进行斜交旋转,最常用的斜交旋转方法为Promax方法,对此例进行斜交旋转,可得到如下输出结果6.4:
输出结果6.4:
Pattern Matrixa1Component23Educational Level.797-.2661.913E-02(years)Current Salary.9462.770E-024.936E-02Beginning Salary.960.181-6.5E-02Months since Hire1.565E-031.667E-021.000Previous Experience9.555E-03.9851.577E-02(months)Extraction Method: Principal Component Analysis.
Rotation Method: Promax with Kaiser Normalization.a.
Rotation converged in 4 iterations.
Structure Matrix1Component23Educational Level.827-.3535.839E-02(years)Current Salary.945-7.7E-028.681E-02Beginning Salary.9377.818E-02-3.1E-02Months since Hire4.011E-02-1.0E-02.999Previous Experience-9.7E-02.984-1.0E-02(months)Extraction Method: Principal Component Analysis.
Rotation Method: Promax with Kaiser ent Correlation MatrixComponent12311.000-.1094.037E-022-.1091.000-2.7E-0234.037E-02-2.7E-021.000Extraction Method: Principal Component Analysis.
Rotation Method: Promax with Kaiser Normalization.
可以看到,与正交旋转不同,斜交旋转的输出结果中没有Rotated Component Matrix而代之以Pattern Matrix和Structure Matrix,这里,Pattern Matrix即是因子载荷矩阵,而Structure Matrix为公因子与原始变量的相关阵,也就是说,在斜交旋转中,因子载荷系数不再等于公因子与原始变量的相关系数。上面三个表格存在如下关系:
Structure Matrix=Pattern Matrix
ComponentCorrelation Matrix
为了得到因子得分值,进行如下操作:在Factor Analysis对话框,点击下方的Scores按钮,进入Factor Scores(因子得分)对话框,选中Save as variables复选框,即把原始数据各样本点的因子得分值存为变量,可以看到系统默认用回归方法求因子得分系数(Method框架中Regression选项被自动选中),保留此设置。在此例中,我们还选中了Save as variables复选框,这一选项要求输出估计的因子得分值,该结果出现在数据窗口。在数据窗口,我们可以看到在原始变量后面出现了三个新的变量,变量名分别为fac1_1,fac2_1,fac3_1。这三个变量即为各个样品的第一公因子、第二公因子、第三公因子的得分。我们在前面的分析中曾提过这些得分是经过标准化的,这一点可以用下面的方法简单的验证:
依次点选Analyze→Descriptive Statistics→Descriptives…进入Descriptives对话框,选中fac1_1,fac2_1,fac3_1三个变量,点击OK按钮运行,可得到如下结果:
输出结果6.5:
Descriptive StatisticsNREGR factor score
1 for analysis 1REGR factor score
2 for analysis 1REGR factor score
3 for analysis 1Valid N (listwise)ion1.00000001.00000001.0000000
可以看到,三个变量的标准差均为1(此处由于舍入原因,变量的均值不绝对等于0而是有细微差别)。
得到各个样品的因子得分后,我们就可以对样本点进行分析,如用因子得分值代替原始数据进行归类分析或是回归分析等。同时,我们还可以在一张二维图上画出各数据点,描述各样本点之间的相关关系。
依次点选Graphs→Scatter…进入Scatterplot对话框,选择Simple按Define按扭,在弹出的Simple Scatterplot对话框中,分别选择fac1_1,fac2_1作为X轴与Y轴,点击OK交由程序运行,可得如下散点图:
输出结果6.6:
43210-1-2-202468REGR factor score 1 for analysis 1
由此可以直观地描述原始数据的散布情况,为了研究需要,还可以很方便地输出第一因子与第三因子,第二因子与第三因子的散点图或同时生成三个因子的散点图,这只需选择不同的变量或图形类型即可,在此不在详述。
【例6.2】 采用上一章的例子,继续对35个上市公司的八大评价指标进行分析。
按照因子分析的步骤:
第一步:先计算因子载荷矩阵与特殊度。实际上,上一章的分析过程已经完成了这一部分的工作,按主成分法提取公因子。根据上一章的工作得到了如下结果(此处,为了更充分提取原始变量信息,保留四个公因子):
输出结果6.6:
CommunalitiesInitialExtraction净资产收益率1.000.919总资产报酬率1.000.943资产负债率1.000.878总资产周转率1.000.880流动资产周转率1.000.911已获利息倍数1.000.907销售增长率1.000.799资本积累率1.000.910Extraction Method: Principal Component Analysis.
Total Variance ExplainedInitial Eigenvalues% ofComponentTotalVarianceCumulative %14.20152.50852.50821.56119.51172.0183.7048.80080.8184.6828.52589.3435.4165.20194.5446.2202.75597.2997.1581.97699.27585.802E-02.725100.000Extraction Method: Principal Component ent MatrixaComponent3净资产收益率.934.105-1.7E-03总资产报酬率.903-.124-.179资产负债率-9.9E-02.851.218总资产周转率.770.412-.205流动资产周转率.825.188-.370已获利息倍数.594-.6294.438E-02销售增长率.702.302.460资本积累率.620-.342.481Extraction Method: Principal Component Analysis.a.
4 components extracted.124.189.284.309-.273-.243.3955.031E-02-.421Extraction Sums of Squared Loadings% ofTotalVarianceCumulative %4.20152.50852.5081.56119.51172.018.7048.80080.818.6828.52589.343
当保留四个公因子时,公因子可以解释原始变量89.34%的方差,这样就把一个八维的问题降至四维,Communalities表给出了共同度的信息,可以看到,公因子对每一个原始变量的解释能力都较强。Component Matrix是因子载荷矩阵,由此表可以写出特殊因子忽略不计
时的因子模型,以第一行为例,有:
标准化净资产收益率0.934fac10.105fac2(1.7E3)fac3
0.189fac4此时所得未旋转的公因子实际意义不好解释,对公因子进行方差最大化旋转:
第二步:因子旋转。在Factor Analysis对话框中点击Rotation…按钮进入Rotation对话框,选中Varimax进行方差最大正交旋转,为便于得出结论,在Factor Analysis点击Optons…按钮进入Options对话框,在Coefficient Display Format框架中选中Sorted by Size以使输出的载荷矩阵中各列按载荷系数大小排列,使在同一公因子上具有较高载荷的变量排在一起。Continue继续,OK运行,可以得到如下旋转结果:
输出结果6.7:
Rotated Component MatrixaComponent123流动资产周转率.919.210.138总资产周转率.8946.469E-02.223净资产收益率.640.615.299已获利息倍数2.762E-02.881.212总资产报酬率.586.761.140资本积累率.211.195.872销售增长率.369.306.593资产负债率4.476E-02-.193-.131Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.a.
Rotation converged in 6 iterations.4-6.6E-02.162.203-.294-8.6E-03-.260.467.906
Component Transformation MatrixComponent1231.708.562.4252.382-.421-.1493-.493.004.7834-.331.712-.429Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.4.037.809.379.447
Rotated Component Matrix是旋转后的因子载荷矩阵,可以看到,旋转后因子载荷矩阵产生了很大的变化,第一个公因子基本上反映了总资产周转率与流动资产周转率的信息,反映了净资产收益率与总资产报酬率的部分信息,同时在其他各个原始变量上的系数也为正值,大体可以解释为资产运营情况或是公司总体的运营情况,第二个因子主要集中了已获利息倍数、总资产报酬率及净资产收益率的信息,可以解释为公司的获利能力,第三个公因子主要集中了资本积累率与销售增长率的信息,可以解释为公司的发展能力,第四个公因子主要集中了资产负债率的信息,可以解释为公司的资本结构。这样,经过旋转之后,各因子的意义变得比较明确。
需要说明的是,在《国有资本金效绩评价规则》中对这八个指标的解释也分为四部分,与通过因子分析的结论有相似之处也有区别,其对各指标的解释与归类为:净资产收益率与总资产报酬率两指标反映财务效益状况,总资产周转率与流动资产周转率反映资产运营状况,资产负债率与已获利息倍数反映偿债能力状况,而销售增长率与资本积累率反映公司的发展能力状况。由因子分析的结果来看,《国有资本金效绩评价规则》给出的指标体系有一定的合理性,而实际研究中,定量分析的结果也总是要与定性的分析结合起来才能得到合理
可信的结论。总起来说,《规则》对八个指标的解释与单单通过因子分析得到的结论有很大相似,也说明此处因子分析的运用比较合理。
第三步:因子得分。对原始八个指标提取公因子后,就可以通过分析少数几个公因子来对各上市公司进行比较研究了。在Factor Analysis对话框中点击Scores…按钮进入Factor
Scores对话框,选中Save As Variables复选框输出因子得分值并存为变量,Continue继续,OK运行。可以看到在数据窗口中多了四个变量fac1_1,fac2_1,fac3_1及fac4_1,这几个变量的值是各公司相应公因子的得分。
由上面的分析知,前两个公因子大约提取了原始变量72%的信息,可以作出前两个因子的散点图来描述各公司的散布情况。按【例6.1】中的作图方法,对第一、第二个公因子作散点图,可以得到如下结果:
输出结果6.8:
43210-1-2-3-1012345REGR factor score 1 for analysis 1
由图可以看到,由于方正科技在第一公因子上的得分远高于其他公司(4.21),可以说明方正科技的总体运营能力较强,而粤电力A在第二公因子上的得分远高于其他公司(3.73),说明其获利能力较强,类似可以对根据其他各公司在散点图中的位置及第一、第二公因子的意义对各公司的运营能力进行比较。注意上面的散点图不易与各公司对应起来,对此可以画图时在Simple Scatter Plot对话框中选择公司简称进入Set Markers By…下的窗口,这样,各公司在散点图上就会以不同的颜色,不同的形状画出来,以使散点图的可读性更强。
因为第一个因子可以看作是公司的总体运营情况,所以可以通过比较各公司在第一公因子上的得分来对各公司的运营情况加以分析。为了比较方便,可以对各数据按第一公因子的取值进行排序,方法如下:Data→Sort Cases…进入Sort Cases对话框,选择排序变量为fac1_1,在Sort Order框架中选择Descending按降序排列,OK运行。可以得到如下经过排序的结果。
行业
信息技术业
公司简称
方正科技
fac1_1
4.21
fac2_1
-0.34
fac3_1
-0.05
fac4_1
0.35
电力、煤气及水的生产和供应业 穗恒运A
信息技术业 长城电脑
1.73
1.61
1.19
0.74
0.70
0.70
0.45
0.16
0.15
0.06
0.05
-0.01
-0.13
-0.19
-0.20
-0.22
-0.34
-0.35
-0.35
-0.45
-0.46
-0.47
-0.53
-0.53
-0.59
-0.62
-0.64
-0.69
-0.81
-0.81
-0.82
-0.83
-0.84
-0.89
-0.44
-0.45
1.44
0.05
0.24
0.23
-0.17
-0.64
-0.88
3.73
-0.25
0.15
-0.30
0.66
-0.47
-2.06
0.48
-0.54
0.41
1.20
-0.98
-0.60
0.44
0.78
-1.03
-0.17
-0.55
0.67
0.81
-1.04
-0.89
-0.90
1.30
0.12
-1.19
0.59
-0.33
1.40
-0.26
0.79
0.40
0.36
-0.62
-1.20
4.11
-0.68
-0.36
-0.54
-0.98
-0.87
-0.86
-0.20
-0.17
-0.44
-0.25
-0.32
1.23
-0.13
-0.67
0.01
0.10
-0.93
0.69
0.14
-0.48
-0.43
1.60
0.56
-0.89
-0.42
0.22
-0.38
-0.62
1.86
1.40
1.50
-0.93
-0.36
-0.47
0.11
-0.24
0.25
0.60
-1.97
-0.62
-0.05
-0.70
-0.59
0.82
-0.65
-1.64
-0.19
0.51
-0.14
0.55
0.67
2.43
-0.34
-0.14
0.60
-2.06
1.53
电力、煤气及水的生产和供应业 深南电A
电力、煤气及水的生产和供应业 深能源A
信息技术业
信息技术业
信息技术业
房地产业业
信息技术业
永鼎光缆
中兴通讯
宏图高科
三木集团
海星科技
电力、煤气及水的生产和供应业 粤电力A
信息技术业 清华同方
电力、煤气及水的生产和供应业 大连热电
电力、煤气及水的生产和供应业 华银电力
电力、煤气及水的生产和供应业 惠天热电
房地产业
房地产业
辽 房 天
寰岛实业
电力、煤气及水的生产和供应业 原水股份
信息技术业 复华实业
电力、煤气及水的生产和供应业 富龙热力
房地产业
房地产业
房地产业
长春经开
倍特高新
浦东金桥
电力、煤气及水的生产和供应业 韶能股份
信息技术业
房地产业
房地产业
房地产业
房地产业
房地产业
房地产业
房地产业
房地产业
青鸟华光
兴业房产
新 黄 浦
ST中福
中 关 村
金丰投资
粤宏远A
外 高 桥
渝开发A
电力、煤气及水的生产和供应业 龙电股份
房地产业 中华企业
由此表可以看出,信息技术业的总体运营能力要高于电力、煤气及水的生产和供应业与房地产业,而电力、煤气及水的生产和供应业与房地产业的总体运营能力没有显著规律,在各个水平上的分布都有。
但是根据此表来判断各产业的总体运营能力的水平还是不太直观,可以尝试对第一公因子的得分值按取值大小进行分类并作出分类后的因子得分与各产业的列联表,不妨按fac1_10.5,0fac1_10.5,0.5fac1_10,fac1_1<-0.5把第一因子得分分成四类。SPSS软件可以完成上述分类并方便地生成列联表,方法如下:
Transform→Reocde→In to Different Variables…进入Recode In to Different
Variables对话框,在对话框子左侧列出了数据窗口中所有的变量名,选择fac1_1进入Numeric Variable→Output Variable下的窗口中,此时右侧的Output Variable框架被击活。在Name文本框中输出要生成的分类变量名,不妨设为Cat,Label处输入“因子得分分类”作为Cat变量的标签,点击Old and New Values…按钮进入Old and New Values对话框设置分类规则与生成的分类变量的值。在Old Value框架中选中Range,在下侧的文本框中分别输入0.5和4.5,在New Value中输入1,点击new Value框架下侧的Add按钮,此时Add右侧的窗口发生如下变化0.5 thru 4.5→1,这表示Cat变量对应第一因子得分从0.5到4.5的部分均被赋值为1,按此方法分别对其他各类赋值为2,3,4。Continue继续,回到Recode In to Different
Variables对话框,点击Output Variable框架中的Change按钮,OK运行。可以看到Cat变量已出现在数据窗口。在Variable View窗口还可以对其取值设置标签以使其意义更明显,此处不再详述。对Cat的取值设好标签后回到数据窗口,依次点选Analyze→Descriptive
Statistics→Crosstabs…进入Crosstabs对话框,分别选择产业与Cat作为行变量与列变量,OK运行,就可以输出如下列联表:
输出结果6.9:
产业 * 因子得分分类 CrosstabulationCount因子得分分类0<=fac1_-0.5<=fa1<0.5c1_1
由此表可以更清楚地看到,信息技术业总体运营能力普遍较高,在九家公司中有七家公司在第一公因子上的得分都在0以上,这或许与我国2000年信息技术业的蓬勃发展有关。而房地产业总体运营能力普遍较差,在15家公司中有14家在第一公因子上的得分都小于0,这也反映了目前我国房地产业经营的不规范、不景气的状况。而电力、煤气及水的生产和供应业的总体运营能力没有显著规律。
2023年12月17日发(作者:晋海颖)
§8.6 因子分析的spss实现
在前面,我们用SPSS的Factor Analysis模块实现了主成分分析,实际上,Factor Analysis主要是SPSS软件进行因子分析的模块,由于主成分分析与因子分析(特别是因子分析中的主成分法)之间有密切的关系,SPSS软件将这两种分析方法放到同一模块中。
下面我们先用SPSS软件自带的数据说明Factor Analysis模块进行因子分析的方法,然后给出一个具体案例。为了与主成分分析进行比较,我们此处仍延用SPSS自带的Employee
数据集。
【例8.6.1】 数据集中各变量解释说明见上一章主成分分析,用Factor
Analysis模块进行因子分析。
打开数据集并依次选分析(Analyze) =>降维(Dimension reduction)=>因子分析(Factor)打开因子分析(Factor)对话框:
变量x1-x8进入Variables窗口。
点击对话框右侧的Extraction进入Extration对话框,在Method选项框我们看到SPSS默认是用主成分法提取因子,
在Analyze框架中看到是从分析相关阵的结构出发求解公因子。点Continue按钮继续。如果这样交由程序运行的话,将得到与主成分分析同样的结果,其中包括公因子解释方差的比例,因子载荷矩阵(即Component Matrix) 等。
选中scores => Display factor score coefficient matrix复选框,它要求SPSS输出因子得分矩阵,即标准化主成分(因子)用原始变量线性表示的系数矩阵。
点Continue继续,点OK按钮运行,可以得到如下输出结果:
Communalities
100m(秒)
200m(秒)
400m(秒)
Initial
1.000
1.000
1.000
Extraction
.668
.752
.838
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
1.000
1.000
1.000
1.000
1.000
.900
.920
.879
.891
.774
Extraction Method: Principal Component
Analysis.
Total Variance Explained
Component
1
2
3
4
5
6
7
8
Total
6.622
.878
.159
.124
.080
.068
.046
.023
Initial Eigenvalues
% of Variance
82.777
10.970
1.992
1.551
.999
.850
.580
.283
Cumulative %
82.777
93.747
95.739
97.289
98.288
99.137
99.717
100.000
Extraction Sums of Squared Loadings
Total
6.622
% of Variance
82.777
Cumulative %
82.777
Extraction Method: Principal Component Analysis.
Component Matrix
a
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.817
.867
.915
.949
.959
.938
.944
.880
Extraction Method: Principal
Component Analysis.
Component Matrix
a
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.817
.867
.915
.949
.959
.938
.944
.880
Extraction Method: Principal
Component Analysis.
a. 1 components extracted.
Component Score Coefficient
Matrix
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.123
.131
.138
.143
.145
.142
.143
.133
Extraction Method: Principal
Component Analysis.
Component Scores.
Total Variance Explained
Component
1
2
3
4
5
6
7
8
Total
6.622
.878
.159
.124
.080
.068
.046
.023
Initial Eigenvalues
% of Variance
82.777
10.970
1.992
1.551
.999
.850
.580
.283
Cumulative %
82.777
93.747
95.739
97.289
98.288
99.137
99.717
100.000
Extraction Sums of Squared Loadings
Total
6.622
.878
% of Variance
82.777
10.970
Cumulative %
82.777
93.747
Extraction Method: Principal Component Analysis.
Component Matrix
a
100m(秒)
200m(秒)
400m(秒)
800m(分)
Component
1
.817
.867
.915
.949
2
.531
.432
.233
.012
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
.959
.938
.944
.880
-.131
-.292
-.287
-.411
Extraction Method: Principal Component
Analysis.
a. 2 components extracted.
Component Score Coefficient Matrix
100m(秒)
200m(秒)
400m(秒)
800m(分)
1500m(分)
5000m(分)
10000m(分)
马拉松(分)
Component
1
.123
.131
.138
.143
.145
.142
.143
.133
2
.605
.493
.265
.013
-.149
-.333
-.328
-.469
Extraction Method: Principal Component
Analysis.
Component Scores.
得到初始载荷矩阵与公因子后,为了解释方便往往需要对因子进行旋转,设置好其他选项后点击Factor Analysis对话框下部的Rotation…按钮,进入Rotation对话框,在Method框架中可以看到SPSS给出了多种进行旋转的方法,系统默认为不旋转。可以选择的旋转方法有Varimax(方差最大正交旋转)、Direct Oblimin(直接斜交旋转)、Quartmax(四次方最大正交旋转)、Equamax(平均正交旋转)及Promax(斜交旋转), 选中Varimax选项,此时,Display框架中Rotated solution选项处于活动状态,选中该选项以输出旋转结果。点击Contunue→OK运行,除上面的结果外还可得到如下输出结果6.3:
输
Rotated Component Matrixa1Component23Educational Level.812-.3063.616E-02(years)Current Salary.944-2.1E-026.552E-02Beginning Salary.946.133-5.0E-02Months since Hire2.285E-022.928E-03.999Previous Experience-4.7E-02.9834.355E-03(months)Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.a.
Rotation converged in 4 iterations.
Component Transformation MatrixComponent1231.990-.134.0462.137.989-.0583-.038.064.997Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Score Coefficient Matrix1Educational Level(years)Current SalaryBeginning SalaryMonths since HirePrevious Experience(months).314.388.403-.017.051Component2-.229.049.193.011.9213.013.040-.074.994.012
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Scores.
由结果可以看到,旋转后公共因子解释原始数据的能力没有提高,但因子载荷矩阵及因子得分系数矩阵都发生了变化,因子载荷矩阵中的元素更倾向于0或者正负1。
有时为了公因子的实际意义更容易解释,往往需要放弃公因子之间互不相关的约束而进行斜交旋转,最常用的斜交旋转方法为Promax方法,对此例进行斜交旋转,可得到如下输出结果6.4:
输出结果6.4:
Pattern Matrixa1Component23Educational Level.797-.2661.913E-02(years)Current Salary.9462.770E-024.936E-02Beginning Salary.960.181-6.5E-02Months since Hire1.565E-031.667E-021.000Previous Experience9.555E-03.9851.577E-02(months)Extraction Method: Principal Component Analysis.
Rotation Method: Promax with Kaiser Normalization.a.
Rotation converged in 4 iterations.
Structure Matrix1Component23Educational Level.827-.3535.839E-02(years)Current Salary.945-7.7E-028.681E-02Beginning Salary.9377.818E-02-3.1E-02Months since Hire4.011E-02-1.0E-02.999Previous Experience-9.7E-02.984-1.0E-02(months)Extraction Method: Principal Component Analysis.
Rotation Method: Promax with Kaiser ent Correlation MatrixComponent12311.000-.1094.037E-022-.1091.000-2.7E-0234.037E-02-2.7E-021.000Extraction Method: Principal Component Analysis.
Rotation Method: Promax with Kaiser Normalization.
可以看到,与正交旋转不同,斜交旋转的输出结果中没有Rotated Component Matrix而代之以Pattern Matrix和Structure Matrix,这里,Pattern Matrix即是因子载荷矩阵,而Structure Matrix为公因子与原始变量的相关阵,也就是说,在斜交旋转中,因子载荷系数不再等于公因子与原始变量的相关系数。上面三个表格存在如下关系:
Structure Matrix=Pattern Matrix
ComponentCorrelation Matrix
为了得到因子得分值,进行如下操作:在Factor Analysis对话框,点击下方的Scores按钮,进入Factor Scores(因子得分)对话框,选中Save as variables复选框,即把原始数据各样本点的因子得分值存为变量,可以看到系统默认用回归方法求因子得分系数(Method框架中Regression选项被自动选中),保留此设置。在此例中,我们还选中了Save as variables复选框,这一选项要求输出估计的因子得分值,该结果出现在数据窗口。在数据窗口,我们可以看到在原始变量后面出现了三个新的变量,变量名分别为fac1_1,fac2_1,fac3_1。这三个变量即为各个样品的第一公因子、第二公因子、第三公因子的得分。我们在前面的分析中曾提过这些得分是经过标准化的,这一点可以用下面的方法简单的验证:
依次点选Analyze→Descriptive Statistics→Descriptives…进入Descriptives对话框,选中fac1_1,fac2_1,fac3_1三个变量,点击OK按钮运行,可得到如下结果:
输出结果6.5:
Descriptive StatisticsNREGR factor score
1 for analysis 1REGR factor score
2 for analysis 1REGR factor score
3 for analysis 1Valid N (listwise)ion1.00000001.00000001.0000000
可以看到,三个变量的标准差均为1(此处由于舍入原因,变量的均值不绝对等于0而是有细微差别)。
得到各个样品的因子得分后,我们就可以对样本点进行分析,如用因子得分值代替原始数据进行归类分析或是回归分析等。同时,我们还可以在一张二维图上画出各数据点,描述各样本点之间的相关关系。
依次点选Graphs→Scatter…进入Scatterplot对话框,选择Simple按Define按扭,在弹出的Simple Scatterplot对话框中,分别选择fac1_1,fac2_1作为X轴与Y轴,点击OK交由程序运行,可得如下散点图:
输出结果6.6:
43210-1-2-202468REGR factor score 1 for analysis 1
由此可以直观地描述原始数据的散布情况,为了研究需要,还可以很方便地输出第一因子与第三因子,第二因子与第三因子的散点图或同时生成三个因子的散点图,这只需选择不同的变量或图形类型即可,在此不在详述。
【例6.2】 采用上一章的例子,继续对35个上市公司的八大评价指标进行分析。
按照因子分析的步骤:
第一步:先计算因子载荷矩阵与特殊度。实际上,上一章的分析过程已经完成了这一部分的工作,按主成分法提取公因子。根据上一章的工作得到了如下结果(此处,为了更充分提取原始变量信息,保留四个公因子):
输出结果6.6:
CommunalitiesInitialExtraction净资产收益率1.000.919总资产报酬率1.000.943资产负债率1.000.878总资产周转率1.000.880流动资产周转率1.000.911已获利息倍数1.000.907销售增长率1.000.799资本积累率1.000.910Extraction Method: Principal Component Analysis.
Total Variance ExplainedInitial Eigenvalues% ofComponentTotalVarianceCumulative %14.20152.50852.50821.56119.51172.0183.7048.80080.8184.6828.52589.3435.4165.20194.5446.2202.75597.2997.1581.97699.27585.802E-02.725100.000Extraction Method: Principal Component ent MatrixaComponent3净资产收益率.934.105-1.7E-03总资产报酬率.903-.124-.179资产负债率-9.9E-02.851.218总资产周转率.770.412-.205流动资产周转率.825.188-.370已获利息倍数.594-.6294.438E-02销售增长率.702.302.460资本积累率.620-.342.481Extraction Method: Principal Component Analysis.a.
4 components extracted.124.189.284.309-.273-.243.3955.031E-02-.421Extraction Sums of Squared Loadings% ofTotalVarianceCumulative %4.20152.50852.5081.56119.51172.018.7048.80080.818.6828.52589.343
当保留四个公因子时,公因子可以解释原始变量89.34%的方差,这样就把一个八维的问题降至四维,Communalities表给出了共同度的信息,可以看到,公因子对每一个原始变量的解释能力都较强。Component Matrix是因子载荷矩阵,由此表可以写出特殊因子忽略不计
时的因子模型,以第一行为例,有:
标准化净资产收益率0.934fac10.105fac2(1.7E3)fac3
0.189fac4此时所得未旋转的公因子实际意义不好解释,对公因子进行方差最大化旋转:
第二步:因子旋转。在Factor Analysis对话框中点击Rotation…按钮进入Rotation对话框,选中Varimax进行方差最大正交旋转,为便于得出结论,在Factor Analysis点击Optons…按钮进入Options对话框,在Coefficient Display Format框架中选中Sorted by Size以使输出的载荷矩阵中各列按载荷系数大小排列,使在同一公因子上具有较高载荷的变量排在一起。Continue继续,OK运行,可以得到如下旋转结果:
输出结果6.7:
Rotated Component MatrixaComponent123流动资产周转率.919.210.138总资产周转率.8946.469E-02.223净资产收益率.640.615.299已获利息倍数2.762E-02.881.212总资产报酬率.586.761.140资本积累率.211.195.872销售增长率.369.306.593资产负债率4.476E-02-.193-.131Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.a.
Rotation converged in 6 iterations.4-6.6E-02.162.203-.294-8.6E-03-.260.467.906
Component Transformation MatrixComponent1231.708.562.4252.382-.421-.1493-.493.004.7834-.331.712-.429Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.4.037.809.379.447
Rotated Component Matrix是旋转后的因子载荷矩阵,可以看到,旋转后因子载荷矩阵产生了很大的变化,第一个公因子基本上反映了总资产周转率与流动资产周转率的信息,反映了净资产收益率与总资产报酬率的部分信息,同时在其他各个原始变量上的系数也为正值,大体可以解释为资产运营情况或是公司总体的运营情况,第二个因子主要集中了已获利息倍数、总资产报酬率及净资产收益率的信息,可以解释为公司的获利能力,第三个公因子主要集中了资本积累率与销售增长率的信息,可以解释为公司的发展能力,第四个公因子主要集中了资产负债率的信息,可以解释为公司的资本结构。这样,经过旋转之后,各因子的意义变得比较明确。
需要说明的是,在《国有资本金效绩评价规则》中对这八个指标的解释也分为四部分,与通过因子分析的结论有相似之处也有区别,其对各指标的解释与归类为:净资产收益率与总资产报酬率两指标反映财务效益状况,总资产周转率与流动资产周转率反映资产运营状况,资产负债率与已获利息倍数反映偿债能力状况,而销售增长率与资本积累率反映公司的发展能力状况。由因子分析的结果来看,《国有资本金效绩评价规则》给出的指标体系有一定的合理性,而实际研究中,定量分析的结果也总是要与定性的分析结合起来才能得到合理
可信的结论。总起来说,《规则》对八个指标的解释与单单通过因子分析得到的结论有很大相似,也说明此处因子分析的运用比较合理。
第三步:因子得分。对原始八个指标提取公因子后,就可以通过分析少数几个公因子来对各上市公司进行比较研究了。在Factor Analysis对话框中点击Scores…按钮进入Factor
Scores对话框,选中Save As Variables复选框输出因子得分值并存为变量,Continue继续,OK运行。可以看到在数据窗口中多了四个变量fac1_1,fac2_1,fac3_1及fac4_1,这几个变量的值是各公司相应公因子的得分。
由上面的分析知,前两个公因子大约提取了原始变量72%的信息,可以作出前两个因子的散点图来描述各公司的散布情况。按【例6.1】中的作图方法,对第一、第二个公因子作散点图,可以得到如下结果:
输出结果6.8:
43210-1-2-3-1012345REGR factor score 1 for analysis 1
由图可以看到,由于方正科技在第一公因子上的得分远高于其他公司(4.21),可以说明方正科技的总体运营能力较强,而粤电力A在第二公因子上的得分远高于其他公司(3.73),说明其获利能力较强,类似可以对根据其他各公司在散点图中的位置及第一、第二公因子的意义对各公司的运营能力进行比较。注意上面的散点图不易与各公司对应起来,对此可以画图时在Simple Scatter Plot对话框中选择公司简称进入Set Markers By…下的窗口,这样,各公司在散点图上就会以不同的颜色,不同的形状画出来,以使散点图的可读性更强。
因为第一个因子可以看作是公司的总体运营情况,所以可以通过比较各公司在第一公因子上的得分来对各公司的运营情况加以分析。为了比较方便,可以对各数据按第一公因子的取值进行排序,方法如下:Data→Sort Cases…进入Sort Cases对话框,选择排序变量为fac1_1,在Sort Order框架中选择Descending按降序排列,OK运行。可以得到如下经过排序的结果。
行业
信息技术业
公司简称
方正科技
fac1_1
4.21
fac2_1
-0.34
fac3_1
-0.05
fac4_1
0.35
电力、煤气及水的生产和供应业 穗恒运A
信息技术业 长城电脑
1.73
1.61
1.19
0.74
0.70
0.70
0.45
0.16
0.15
0.06
0.05
-0.01
-0.13
-0.19
-0.20
-0.22
-0.34
-0.35
-0.35
-0.45
-0.46
-0.47
-0.53
-0.53
-0.59
-0.62
-0.64
-0.69
-0.81
-0.81
-0.82
-0.83
-0.84
-0.89
-0.44
-0.45
1.44
0.05
0.24
0.23
-0.17
-0.64
-0.88
3.73
-0.25
0.15
-0.30
0.66
-0.47
-2.06
0.48
-0.54
0.41
1.20
-0.98
-0.60
0.44
0.78
-1.03
-0.17
-0.55
0.67
0.81
-1.04
-0.89
-0.90
1.30
0.12
-1.19
0.59
-0.33
1.40
-0.26
0.79
0.40
0.36
-0.62
-1.20
4.11
-0.68
-0.36
-0.54
-0.98
-0.87
-0.86
-0.20
-0.17
-0.44
-0.25
-0.32
1.23
-0.13
-0.67
0.01
0.10
-0.93
0.69
0.14
-0.48
-0.43
1.60
0.56
-0.89
-0.42
0.22
-0.38
-0.62
1.86
1.40
1.50
-0.93
-0.36
-0.47
0.11
-0.24
0.25
0.60
-1.97
-0.62
-0.05
-0.70
-0.59
0.82
-0.65
-1.64
-0.19
0.51
-0.14
0.55
0.67
2.43
-0.34
-0.14
0.60
-2.06
1.53
电力、煤气及水的生产和供应业 深南电A
电力、煤气及水的生产和供应业 深能源A
信息技术业
信息技术业
信息技术业
房地产业业
信息技术业
永鼎光缆
中兴通讯
宏图高科
三木集团
海星科技
电力、煤气及水的生产和供应业 粤电力A
信息技术业 清华同方
电力、煤气及水的生产和供应业 大连热电
电力、煤气及水的生产和供应业 华银电力
电力、煤气及水的生产和供应业 惠天热电
房地产业
房地产业
辽 房 天
寰岛实业
电力、煤气及水的生产和供应业 原水股份
信息技术业 复华实业
电力、煤气及水的生产和供应业 富龙热力
房地产业
房地产业
房地产业
长春经开
倍特高新
浦东金桥
电力、煤气及水的生产和供应业 韶能股份
信息技术业
房地产业
房地产业
房地产业
房地产业
房地产业
房地产业
房地产业
房地产业
青鸟华光
兴业房产
新 黄 浦
ST中福
中 关 村
金丰投资
粤宏远A
外 高 桥
渝开发A
电力、煤气及水的生产和供应业 龙电股份
房地产业 中华企业
由此表可以看出,信息技术业的总体运营能力要高于电力、煤气及水的生产和供应业与房地产业,而电力、煤气及水的生产和供应业与房地产业的总体运营能力没有显著规律,在各个水平上的分布都有。
但是根据此表来判断各产业的总体运营能力的水平还是不太直观,可以尝试对第一公因子的得分值按取值大小进行分类并作出分类后的因子得分与各产业的列联表,不妨按fac1_10.5,0fac1_10.5,0.5fac1_10,fac1_1<-0.5把第一因子得分分成四类。SPSS软件可以完成上述分类并方便地生成列联表,方法如下:
Transform→Reocde→In to Different Variables…进入Recode In to Different
Variables对话框,在对话框子左侧列出了数据窗口中所有的变量名,选择fac1_1进入Numeric Variable→Output Variable下的窗口中,此时右侧的Output Variable框架被击活。在Name文本框中输出要生成的分类变量名,不妨设为Cat,Label处输入“因子得分分类”作为Cat变量的标签,点击Old and New Values…按钮进入Old and New Values对话框设置分类规则与生成的分类变量的值。在Old Value框架中选中Range,在下侧的文本框中分别输入0.5和4.5,在New Value中输入1,点击new Value框架下侧的Add按钮,此时Add右侧的窗口发生如下变化0.5 thru 4.5→1,这表示Cat变量对应第一因子得分从0.5到4.5的部分均被赋值为1,按此方法分别对其他各类赋值为2,3,4。Continue继续,回到Recode In to Different
Variables对话框,点击Output Variable框架中的Change按钮,OK运行。可以看到Cat变量已出现在数据窗口。在Variable View窗口还可以对其取值设置标签以使其意义更明显,此处不再详述。对Cat的取值设好标签后回到数据窗口,依次点选Analyze→Descriptive
Statistics→Crosstabs…进入Crosstabs对话框,分别选择产业与Cat作为行变量与列变量,OK运行,就可以输出如下列联表:
输出结果6.9:
产业 * 因子得分分类 CrosstabulationCount因子得分分类0<=fac1_-0.5<=fa1<0.5c1_1
由此表可以更清楚地看到,信息技术业总体运营能力普遍较高,在九家公司中有七家公司在第一公因子上的得分都在0以上,这或许与我国2000年信息技术业的蓬勃发展有关。而房地产业总体运营能力普遍较差,在15家公司中有14家在第一公因子上的得分都小于0,这也反映了目前我国房地产业经营的不规范、不景气的状况。而电力、煤气及水的生产和供应业的总体运营能力没有显著规律。