2024年5月14日发(作者:光之卉)
2012年3月
经济论坛
Economic Forum
Mar.2012
总第500期第O3期
Gen.500 No.03
多重共线性对房价分析的影响及其修正
——
基于《西安市商品房价格影响因素分析及预测》一文的讨论
文/王清汉
【摘 要】丁建国的《西安市商品房价格影响因素分析及预测》一文,采用多元线性回归模型,对商品房
价格进行了定量分析。但在该文中,由于没有有效消除多重共线性的不利影响,导致回归方程及分析结论
出现严重错误。社会经济中的时间序列数据具有较强的相关性,在线性回归时会出现多重共线性问题。本
文利用差分回归模型重新进行线性回归,在克服多重共线性影响的同时,从供求关系方面反映西安市商品
住宅价格的变动情况。
【关键词】多重共线性;线性回归;差分模型;商品房价格
【作者简介】王清汉,同济大学经济与管理学院硕士研究生,研究方向:建筑经济和工程项目管理。
一
、
前言
当引用统计年鉴中“全市固定资产投资”的“房地
西安科技大学的硕士研究生丁建国在其硕士学
产开发”条目。
位论文《西安市商品房价格影响因素分析及预测》
(二)模型的多重共线性问题
(以下简称《西》)中,指出西安市商品房价格的
《西》文利用SPSS软件对统计数据进行线性
影响因素包括西安市GDP、人均可支配收入、非
回归,得到各项估计参数并写出回归方程。但是软
农人口数、住宅平均造价、竣工面积、销售面积、
件计算得到的GDP项自变量的系数为一2.565(图
西安市总人口和人口密度等8项。并基于1991~
1),而其在回归方程中却“变为”2.565(式1)。
2007年西安市的经济统计数据,利用多元线性回
该文此后的定量分析与预测均是基于这一方程。由
归模型对西安市的商品房价格进行了定量分析,提
于方程的系数并没有反映实际的统计结果,那么该
出包括人均可支配收入、西安市GDP、商品住宅
文的分析与预测结论必然是不科学的。
竣工面积等因素在内的回归方程,并据此对西安市
Yo=440.88+2.656X 1+0.457Xi2—0.494Xi5
房价的变化趋势进行了预测。但《西》文在数据的
(1)
准确性和模型的多重共线性方面存在着问题,本文
笔者分析认为,出现这样的错误原因在于回归
将主要对其多重共线性问题进行讨论。
得到的参数估计量经济意义不合理,即与定性分析
(一)数据的准确性问题
或实际情况相悖。《西》文中,回归得到的自变量
《西》文中并没有对统计分析所依据的各项数
(图1)国民收入(原文中实际应指西安市GDP)
据的来源进行说明。一般而言,进行统计分析时应
的系数为负,表明西安市的房价与GDP存在负相
首选统计年鉴的数据,以确保数据的规范和可信
关性,即GDP越高,房价反而越低。这一结论明
度。笔者将《西》文中的数据与《西安统计年鉴》
显与经济常识相悖。
进行比对,发现文中数据使用有误。文中“住宅竣
之所以会出现上述线性回归结果与实际情况不
工面积”项采用了统计年鉴中的“市属固定资产投
符合的情况,笔者初步认为是因为线性回归的各项
资”的“住宅竣工面积”条目。该项数据反映的是
白变量之间存在着多重共线性。本文将重点探讨该
西安市市属经济体营建住宅的竣工面积,其中包括
模型的多重共线性问题,并尝试采用差分法重新构
城镇投资和房地产开发两部分,而城镇投资部分的
建分析模型,以克服线性回归中的多重共线性问
住宅并不参与房地产市场流转,对于商品房价格并
题。
不构成直接的影响。另一方面,房地产市场中流转
二、多重共线性的概念与识别
的住宅产品不仅包括市属经济体营建的,还应包括
(一)多重共线性的概念
国有经济体等。因而,笔者认为在对西安市的商品
线性回归模型生效的前提是解释变量和随机误
房价格影响因素进行分析时,“住宅竣工面积”应
差项满足经典假设条件,其中一项条件为:各解释
参数经济意义不合理等。在
C }mcle_
《西》文中,极有可能由于解释
变量之间存在着多重共线性,
从而导致GDP项的系数为负,
与现实情况不符。
(二)多重共线性的识别
常见的用于识别和检验多重
共线性的方法有简单相关系数
判别、综合统计检验法、从属
(辅助)回归、逐步回归检测
等。
‘DciltntlltstVmlll ̄l ̄愦格
从经济常识可知,《西》文
中选择的这8个因素在时序上存
在着明显的同步变化趋势。为
了进一步识别其多重共线性,
图1 《西》文中SPSS软件回归处理结果
变量的样本数据之间不存在密切的线性相关性。
若参与多元回归的各解释变量样本数据之间存
笔者使用《西》文中的数据样本进行了强制进入法
线性回归,SPSS软件输出结果如表2 表4。可见,
在着完全或者近似的线性关系,即不满足经典假设
条件,则称为多重共线性。其产生的原因在于:经
济变量之间存在着相关性或是在时序上具有相同的
变动趋势;或者因为在模型中引入了滞后解释变
量。总之,多重共线性是经济计量中普遍存在的现
回归后得到的R 和F值比较大,但是参数估计的
t检验值较小,甚至无法通过t检验。这是因为8个
解释变量之间的共线性使得它们对被解释变量的独
立作用不能分辨,因而t值较小。由此可以判断该
模型中的8个解释变量之间存在着明显的多重共线
性。
象。古扎拉蒂(Damodar N.Gujarati)认为,多重
共线性本质上是一种样本现象,即使在总体中各解
释变量没有线性关系,但在具体获得的样本中仍可
能有线性关系。
多重共线性的存在将为多元线性回归带来严重
三、多重共线性的修正
在经济计量的实际情况中,尤其是面对时序数
据,各变量之间或多或少会存在同步变动趋势。再
的后果,包括:估计精度下降;回归方程不稳定;
表2原始样本数据的回归模型概述
ModeI Sum mary
加之样本的有限性,使得多重共线性似乎在统计分
析中总是客观存在。我们需要关注的不是多重共线
性存在与否,而是尽力识
别并消除其不利影响。修
正多重共线性的方法包括
增加样本容量、剔除变
I l
Model l R RSquare l RSquare I the Estimate
l1 I .984。 .969 1 .938 l 61.16502
a.Predictors:(constant),人口密度,商品住宅平均造价,销售面积,住
宅竣工面积,西安市GDP,人均可支配收入,城市非农人口数,西安
市总人口。
l l Ad.usled l Std.Brof of
量、改用差分模型等。另
外,布兰查德(Blanchard,
0.J)也曾指出“多重共线
性是上帝的意志,而不是
最dx--乘法或其他一般性
统计方法的问题”。在他看
来,多重共线性实质上是
表3原始样本数据回归模型的方差分析表
ANOVAb
Sumof
ModeI
1 Regression
ResiduaI
1_daI
Squares
9∞3055
29929-277
9702348
df
8
8
16
^ an Square
11753&190
3741.160
F
31.4侣
S_霸.
.0000
数据不足,即样本容量不
足的问题,对此,只能采
用“无为而治”的方法。
a Predictors:(c0nscant),人口密度,商品住宅平均造价,销售面积,住宅竣工面积,西安市
GDP,人均可支配收入,城市非农人口数,西安市总人口.
在《西》文中,数据来
源有限,无法再扩大样本
b.Dependent Variable:商品住宅价格。
表7差分回归模型的方差分析表
五、结语
在《西》文中,由
Sum 0f
于多重共线性的存
df
1
14
15
2
13
15
IVlodeI
1 Regression
Residual
TdaI
2 Regressbn
ResiduaI
TdaI
Squares
35101.736
71549.245
106651.0
64905.029
41745.951
106651.0
Mean square
351O1
736
.
F
6|868
Sig.
.020a
在,导致回归模型的
5110
660
.
系数与经济现实不
符,作者有意或无意
地“修改”了回归项
32452
515
.
10.106 .002b
3211
227
.
系数,虽然使得分析
得以继续,但是其分
a.Predictors:(constanc),人均可支配收入
析过程和结论却不再
科学严谨。这样的学
术态度和方法不可
取。我们应当铭记,
在进行学术研究时需
Standardized
b.Predict0rs:(constant),人均可支配收入,销售面积
c.Dependent Variab1e:商品住宅价格
表8差分回归模型的参数估计及检验
Coe竹jcient
Onstandard ed
要保持严谨求实的作
风,万不可为了服务
t
..612
S .
.550
.020
.178
CoefficbnIs
Mbdel B
.
Coefficients
Beta Error
1 (Constant)
人均可支配收入
2 (Constant)
20_244
.289
.38.315
33.O88
.11O
268g0
于结论,而擅自修改
数据。
有学者指出,如果
.574 2.621
1.425
人均可支配收入
销售面积
.477
一.693
.107
.227
.946
.647
4.457
.3.O46
。001
.009
回归得到的模型仅仅
用于预测被解释变
量,而各解释变量之
a.Dependent Variable:商品住宅价格
人均可支配收入的增量与住宅价格的增量呈正相关
关系,销售面积的增量与住宅价格的增量呈负相关
间的多重共线性的性质在未来将继续保持,那么多
关系。表明人均可支配收入的增加,将会带来商品
住宅价格的上升;而销售面积的增加,将会使得住
宅价格的降低。这一结论与经济常识相符。
目前,对住房价格与宏观经济基本变量关系的
重共线性可能并不是严重问题。因为即使无法精确
估计解释变量的回归系数,但是解释变量间的线性
组合是可以基本确定的,那么在判定系数 较大
的情况下,同样也可以实现较准确的预测。
但在本文中,为了揭示各因素对西安市商品住
宅价格的影响规律,笔者利用样本数据的增量形
式,采用逐步回归方法得到差分回归模型。修正后
的模型包含¨『人均可支配收入和销售面积两个因素
的增量形式,克服了多重共线性,并能很好地从供
研究主要采用新古典经济理论的供求分析方法,即
基本经济变量通过影响住房市场供给与需求从而影
响住房价格及其变动。反观原文中的8个影响因
素,大致可以分为两类:一类包括西安市GDP、
人均可支配收入、非农人f=I数、西安市总人口和人
求关系方面反映西安市商品住宅价格的变动情况。
参考文献
…丁建国西安市商品住房价格影响因素分析及预测【D1.西
安:西安科技大学,20()9.
F1密度等5项,这些因素体现了西安市的宏观经济
和社会发展情况,总体上反映了西安市房地产市场
的需求状况;另一类包括住宅平均造价、竣工面积
和销售面积等3项,这些因素体现的是西安市商品
住宅的建设情况,总体上反映了西安市房地产市场
的供应。两类影响因素内部分别有着高度的相关
性,并各有一个代表陛因素作为解释变量进入修正
后的差分模型。
【2】张民伟.西安统计年鉴IM】l西安:中国统计出版社,2008.
【3j张建同,孙昌言,王世进.多元统计学【G】.北京:清华大学
出版社,201().
f4】达摩迭尔・n・古扎拉蒂.计量经济学基础(第四版)lG】.北
京:中国人民大学出版社,2()05.
孙蓉我国房地产价格与宏观经济变量关系的实证分析U】.
价值工程2000(9):20—22.
综上,修正后的差分模型消除了多重共线性的
基础上,很好地反映了西安市经济社会发展情况和
商品住宅建设生产状况对住宅价格的影响,能够为
郭存芝,杜延军,李春吉.计量经济学~一理论、方法、
EViews应用『M1北京:科学出版社,2008.
西安市商品住宅价格的预测提供参考。
(责任编辑:刘明)
2024年5月14日发(作者:光之卉)
2012年3月
经济论坛
Economic Forum
Mar.2012
总第500期第O3期
Gen.500 No.03
多重共线性对房价分析的影响及其修正
——
基于《西安市商品房价格影响因素分析及预测》一文的讨论
文/王清汉
【摘 要】丁建国的《西安市商品房价格影响因素分析及预测》一文,采用多元线性回归模型,对商品房
价格进行了定量分析。但在该文中,由于没有有效消除多重共线性的不利影响,导致回归方程及分析结论
出现严重错误。社会经济中的时间序列数据具有较强的相关性,在线性回归时会出现多重共线性问题。本
文利用差分回归模型重新进行线性回归,在克服多重共线性影响的同时,从供求关系方面反映西安市商品
住宅价格的变动情况。
【关键词】多重共线性;线性回归;差分模型;商品房价格
【作者简介】王清汉,同济大学经济与管理学院硕士研究生,研究方向:建筑经济和工程项目管理。
一
、
前言
当引用统计年鉴中“全市固定资产投资”的“房地
西安科技大学的硕士研究生丁建国在其硕士学
产开发”条目。
位论文《西安市商品房价格影响因素分析及预测》
(二)模型的多重共线性问题
(以下简称《西》)中,指出西安市商品房价格的
《西》文利用SPSS软件对统计数据进行线性
影响因素包括西安市GDP、人均可支配收入、非
回归,得到各项估计参数并写出回归方程。但是软
农人口数、住宅平均造价、竣工面积、销售面积、
件计算得到的GDP项自变量的系数为一2.565(图
西安市总人口和人口密度等8项。并基于1991~
1),而其在回归方程中却“变为”2.565(式1)。
2007年西安市的经济统计数据,利用多元线性回
该文此后的定量分析与预测均是基于这一方程。由
归模型对西安市的商品房价格进行了定量分析,提
于方程的系数并没有反映实际的统计结果,那么该
出包括人均可支配收入、西安市GDP、商品住宅
文的分析与预测结论必然是不科学的。
竣工面积等因素在内的回归方程,并据此对西安市
Yo=440.88+2.656X 1+0.457Xi2—0.494Xi5
房价的变化趋势进行了预测。但《西》文在数据的
(1)
准确性和模型的多重共线性方面存在着问题,本文
笔者分析认为,出现这样的错误原因在于回归
将主要对其多重共线性问题进行讨论。
得到的参数估计量经济意义不合理,即与定性分析
(一)数据的准确性问题
或实际情况相悖。《西》文中,回归得到的自变量
《西》文中并没有对统计分析所依据的各项数
(图1)国民收入(原文中实际应指西安市GDP)
据的来源进行说明。一般而言,进行统计分析时应
的系数为负,表明西安市的房价与GDP存在负相
首选统计年鉴的数据,以确保数据的规范和可信
关性,即GDP越高,房价反而越低。这一结论明
度。笔者将《西》文中的数据与《西安统计年鉴》
显与经济常识相悖。
进行比对,发现文中数据使用有误。文中“住宅竣
之所以会出现上述线性回归结果与实际情况不
工面积”项采用了统计年鉴中的“市属固定资产投
符合的情况,笔者初步认为是因为线性回归的各项
资”的“住宅竣工面积”条目。该项数据反映的是
白变量之间存在着多重共线性。本文将重点探讨该
西安市市属经济体营建住宅的竣工面积,其中包括
模型的多重共线性问题,并尝试采用差分法重新构
城镇投资和房地产开发两部分,而城镇投资部分的
建分析模型,以克服线性回归中的多重共线性问
住宅并不参与房地产市场流转,对于商品房价格并
题。
不构成直接的影响。另一方面,房地产市场中流转
二、多重共线性的概念与识别
的住宅产品不仅包括市属经济体营建的,还应包括
(一)多重共线性的概念
国有经济体等。因而,笔者认为在对西安市的商品
线性回归模型生效的前提是解释变量和随机误
房价格影响因素进行分析时,“住宅竣工面积”应
差项满足经典假设条件,其中一项条件为:各解释
参数经济意义不合理等。在
C }mcle_
《西》文中,极有可能由于解释
变量之间存在着多重共线性,
从而导致GDP项的系数为负,
与现实情况不符。
(二)多重共线性的识别
常见的用于识别和检验多重
共线性的方法有简单相关系数
判别、综合统计检验法、从属
(辅助)回归、逐步回归检测
等。
‘DciltntlltstVmlll ̄l ̄愦格
从经济常识可知,《西》文
中选择的这8个因素在时序上存
在着明显的同步变化趋势。为
了进一步识别其多重共线性,
图1 《西》文中SPSS软件回归处理结果
变量的样本数据之间不存在密切的线性相关性。
若参与多元回归的各解释变量样本数据之间存
笔者使用《西》文中的数据样本进行了强制进入法
线性回归,SPSS软件输出结果如表2 表4。可见,
在着完全或者近似的线性关系,即不满足经典假设
条件,则称为多重共线性。其产生的原因在于:经
济变量之间存在着相关性或是在时序上具有相同的
变动趋势;或者因为在模型中引入了滞后解释变
量。总之,多重共线性是经济计量中普遍存在的现
回归后得到的R 和F值比较大,但是参数估计的
t检验值较小,甚至无法通过t检验。这是因为8个
解释变量之间的共线性使得它们对被解释变量的独
立作用不能分辨,因而t值较小。由此可以判断该
模型中的8个解释变量之间存在着明显的多重共线
性。
象。古扎拉蒂(Damodar N.Gujarati)认为,多重
共线性本质上是一种样本现象,即使在总体中各解
释变量没有线性关系,但在具体获得的样本中仍可
能有线性关系。
多重共线性的存在将为多元线性回归带来严重
三、多重共线性的修正
在经济计量的实际情况中,尤其是面对时序数
据,各变量之间或多或少会存在同步变动趋势。再
的后果,包括:估计精度下降;回归方程不稳定;
表2原始样本数据的回归模型概述
ModeI Sum mary
加之样本的有限性,使得多重共线性似乎在统计分
析中总是客观存在。我们需要关注的不是多重共线
性存在与否,而是尽力识
别并消除其不利影响。修
正多重共线性的方法包括
增加样本容量、剔除变
I l
Model l R RSquare l RSquare I the Estimate
l1 I .984。 .969 1 .938 l 61.16502
a.Predictors:(constant),人口密度,商品住宅平均造价,销售面积,住
宅竣工面积,西安市GDP,人均可支配收入,城市非农人口数,西安
市总人口。
l l Ad.usled l Std.Brof of
量、改用差分模型等。另
外,布兰查德(Blanchard,
0.J)也曾指出“多重共线
性是上帝的意志,而不是
最dx--乘法或其他一般性
统计方法的问题”。在他看
来,多重共线性实质上是
表3原始样本数据回归模型的方差分析表
ANOVAb
Sumof
ModeI
1 Regression
ResiduaI
1_daI
Squares
9∞3055
29929-277
9702348
df
8
8
16
^ an Square
11753&190
3741.160
F
31.4侣
S_霸.
.0000
数据不足,即样本容量不
足的问题,对此,只能采
用“无为而治”的方法。
a Predictors:(c0nscant),人口密度,商品住宅平均造价,销售面积,住宅竣工面积,西安市
GDP,人均可支配收入,城市非农人口数,西安市总人口.
在《西》文中,数据来
源有限,无法再扩大样本
b.Dependent Variable:商品住宅价格。
表7差分回归模型的方差分析表
五、结语
在《西》文中,由
Sum 0f
于多重共线性的存
df
1
14
15
2
13
15
IVlodeI
1 Regression
Residual
TdaI
2 Regressbn
ResiduaI
TdaI
Squares
35101.736
71549.245
106651.0
64905.029
41745.951
106651.0
Mean square
351O1
736
.
F
6|868
Sig.
.020a
在,导致回归模型的
5110
660
.
系数与经济现实不
符,作者有意或无意
地“修改”了回归项
32452
515
.
10.106 .002b
3211
227
.
系数,虽然使得分析
得以继续,但是其分
a.Predictors:(constanc),人均可支配收入
析过程和结论却不再
科学严谨。这样的学
术态度和方法不可
取。我们应当铭记,
在进行学术研究时需
Standardized
b.Predict0rs:(constant),人均可支配收入,销售面积
c.Dependent Variab1e:商品住宅价格
表8差分回归模型的参数估计及检验
Coe竹jcient
Onstandard ed
要保持严谨求实的作
风,万不可为了服务
t
..612
S .
.550
.020
.178
CoefficbnIs
Mbdel B
.
Coefficients
Beta Error
1 (Constant)
人均可支配收入
2 (Constant)
20_244
.289
.38.315
33.O88
.11O
268g0
于结论,而擅自修改
数据。
有学者指出,如果
.574 2.621
1.425
人均可支配收入
销售面积
.477
一.693
.107
.227
.946
.647
4.457
.3.O46
。001
.009
回归得到的模型仅仅
用于预测被解释变
量,而各解释变量之
a.Dependent Variable:商品住宅价格
人均可支配收入的增量与住宅价格的增量呈正相关
关系,销售面积的增量与住宅价格的增量呈负相关
间的多重共线性的性质在未来将继续保持,那么多
关系。表明人均可支配收入的增加,将会带来商品
住宅价格的上升;而销售面积的增加,将会使得住
宅价格的降低。这一结论与经济常识相符。
目前,对住房价格与宏观经济基本变量关系的
重共线性可能并不是严重问题。因为即使无法精确
估计解释变量的回归系数,但是解释变量间的线性
组合是可以基本确定的,那么在判定系数 较大
的情况下,同样也可以实现较准确的预测。
但在本文中,为了揭示各因素对西安市商品住
宅价格的影响规律,笔者利用样本数据的增量形
式,采用逐步回归方法得到差分回归模型。修正后
的模型包含¨『人均可支配收入和销售面积两个因素
的增量形式,克服了多重共线性,并能很好地从供
研究主要采用新古典经济理论的供求分析方法,即
基本经济变量通过影响住房市场供给与需求从而影
响住房价格及其变动。反观原文中的8个影响因
素,大致可以分为两类:一类包括西安市GDP、
人均可支配收入、非农人f=I数、西安市总人口和人
求关系方面反映西安市商品住宅价格的变动情况。
参考文献
…丁建国西安市商品住房价格影响因素分析及预测【D1.西
安:西安科技大学,20()9.
F1密度等5项,这些因素体现了西安市的宏观经济
和社会发展情况,总体上反映了西安市房地产市场
的需求状况;另一类包括住宅平均造价、竣工面积
和销售面积等3项,这些因素体现的是西安市商品
住宅的建设情况,总体上反映了西安市房地产市场
的供应。两类影响因素内部分别有着高度的相关
性,并各有一个代表陛因素作为解释变量进入修正
后的差分模型。
【2】张民伟.西安统计年鉴IM】l西安:中国统计出版社,2008.
【3j张建同,孙昌言,王世进.多元统计学【G】.北京:清华大学
出版社,201().
f4】达摩迭尔・n・古扎拉蒂.计量经济学基础(第四版)lG】.北
京:中国人民大学出版社,2()05.
孙蓉我国房地产价格与宏观经济变量关系的实证分析U】.
价值工程2000(9):20—22.
综上,修正后的差分模型消除了多重共线性的
基础上,很好地反映了西安市经济社会发展情况和
商品住宅建设生产状况对住宅价格的影响,能够为
郭存芝,杜延军,李春吉.计量经济学~一理论、方法、
EViews应用『M1北京:科学出版社,2008.
西安市商品住宅价格的预测提供参考。
(责任编辑:刘明)