第7章多元回归模型:估计计量经济学主讲人:何旭彪2006年12月5日§7-1 模型的基本概念与假定§7-2 偏回归系数的估计及其性质§7-3 多元判定系数R2§7-4 偏相关系数§7-5 多元回归的矩阵表达12§7-1 模型的基本概念与假定v简单的三变量模型:符号与假定vvvvv我们已经学习了如下的模型:yt=a+bxt+utt= 1,2,...,T问题:能否用多个解释变量来解释一个被解释呢?例如:汽车的销售量是由以下几个因素决定的1. 汽车的价格2. 公共交通工具的价格3. 汽油的价格4. 公众对环境保护的态度同样的, 一个股票的回报也是由多个因素决定的。在这些情况下,应该考虑使用多个解释变量。多元线性回归模型参数估计的原理与一元线性回归模型相3同,只是计算更为复杂。三变量模型为:Yi=b1+b2X2i+b3X3i+uivvvvvvvv基本假定:E(uiX2i,X3i)=0对每一个i1.零均值cov(ui,uj)=0i¹j2.无序列相关2var(ui)=s3.同方差性:cov(ui,X2i)=cov(ui,X3i)=04.不相关性:5.无设定偏误6.无精确的共线性无共线性是指不存在一组不全为0的数λ1和λ2使得lX+lX=022i33i4v注意:1.无共线性是指解释变量间不存在线性相关性。22.非线性不会破坏无共线性,如X3i=X2i不会影响共线性。3.解释变量间的线性代换只会减小解释变量的个Yi=b1+b2X2i+b3(2X2i)+ui数。如X=2X3i2i偏回归系数v1、含义:b2度量着保持X3不变的情况下,X2每变化1单位时,Y的均值E(Y| X2, X3)的变化。2、如何保持X3在方程中的影响不变?ˆ1i(1)求Y仅对X3回归:Yi=b1+b13X3i+uˆ2i(2)求X2仅对X3回归:X2i=b2+b23X3i+uˆˆ1i=Yi-b1-b13X3i=Yi-Yuiˆˆ2i=X2i-b2-b23X3i=X2i-Xu2iv=b1+(b2+2b3)X2i+ui=b1+aX2i+ui若对回归方程取条件期望,可得E(YiX2i,X3i)=b1+b2X2i+b3X3i多元回归分析是以多个解释变量的固定值为条件的回归分析,所获取的是诸变量X值固定时Y的平均值或Y的平均响应。uˆ1i表示除去X3对Y的(线性)影响后的Yi值;uˆ2i表示除去X3对X2的(线性)影响后的X2i值。5(3)做uˆ1i对uˆ2i的回归:ˆ1i=auˆ2i+uˆ3iu6§7-2 偏回归系数的估计及其性质v因此,a应是X2的单位变化对Y的“真实”影响或净影响,或是Y对X2的真实斜率,也就是对b2的一个估计。问题:ˆ1i=auˆ2i+uˆ3i为什么是一个无截距的1、u回归方程?2、偏回归系数的估计真的这么麻烦吗?7OLS估计:ˆ+bˆX+bˆX+uˆiYi=b(1).模型122i33ivvvˆ-bˆX-bˆX)2ˆi2=å(Yi-bminåu122i33i(2).正规方程组:(求偏导)Y=bˆ+bˆ1vˆXX2+b33ˆåYiX2i=b1åX2i+bˆ2åX2i2+bˆ3åX2iX3i2åYXi3i2ˆˆˆ=b1åX3i+b2åX2iX3i+b3åX3i8(3)估计结果:vOLS估计量的方差与标准差建立标准差的目的是建立置信区间和检验统计假设。有关公式如下:2ˆ=Y-bˆX-bˆXb122332ˆ=(åyix2i)(åx3i)-(åyix3i)(åx2ix3i)b2(åx2i2)(åx3i2)-(åx2ix3i)2vˆ=b3(åyix3i)(åx2i)-(åyix2i)(åx2ix3i)2ˆ)=[1+Xvar(b1nˆ)=var(b2ˆ)=var(b3(åx)(åx)-(åx222i3i2i3ix)2(åx(åx22i(4)公式特点:1.两方程的分母完全相同2.关于x2与x3是对称的922iåx+Xåx-2XXåxx]×såxåx-(åxx)såx×s=)(åx)-(åxx)åx(1-r)såx×s=)(åx)-(åxx)åx(1-r)22223i32i222322i3i22i3i2i3i223i222223i2i3i2i2322i2222223i2i3i3i23ˆ,bˆ)=cov(b23-r23s(1-r2232)åx22iåx23i注:r23是X2和X3样本的相关系数。ˆ2=såu2i10n-3OLS估计量的性质1.三变量回归线(面)通过点( );Y,X2,X3ˆi)均值等于真实的Y的均值;2.估计的Yi(=Yiˆ2和bˆ3的方差随着相关系数r向着1的方向增6. b23大而增大;2ˆ2与åx27. 估计值的方差与s2成正比;var( )i成反b2ˆ3与åx3i成反比。比;var( )b8.偏回归系数的OLS估计量是线性的,无偏的、且是BELU估计量。v3. åui=uˆ=0ˆi与X2i和X3i都不相关;4.残差uˆi不相关;ˆi与Y5.残差u11最大似然估计量:在随机误差项遵循零均值和同方差的正态分布的假定下,无论是双变量回归还是多变量回归,回归系数的最大似然估计量与普通最小二乘估计量相等。但s2的OLS估计量考虑了自由度,ML估计量无此考虑。12§7-3 多元判定系数R2R2=ˆˆˆ2yx+byxuESSbRSS=2åi2i23åi3i=1-=1-åi2ˆiTSSTSSåyiåyv但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。调整的判定系数(adjusted coefficient of determination)在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:R2=1-å13该统计量越接近于1,模型的拟合优度越高。v判定系数与方差间的关系:2ˆ)=var(bjsvvvv问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大(Why?)随着变量个数k增加,RSS至少不会减少。因此,给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。åxj2(1)1-Rj2ˆi2/(n-k)uˆ2s2n-1=1-(1-)=1-Rˆi2/(n-1)n-kSY2åy14比较R和RR2R222v1.对于k>1,R
0ˆ为极小值点。因此,b27ˆöæX1¢öæX1¢uç÷碈=0ˆ=0ÞçM÷uˆ=0ÞçM÷(X1LXk)u÷=0ÞX1uçX¢÷çX¢u÷èkøèkˆø1nˆ=åuˆi=0由于X1¢=(1L1)1´n得uni=128样本回归超平面的特性ˆY=Xbˆ性质1:样本回归超平面过均值点。即,Y=Xb其中Y=1nåYi,X=(X1,X2,LXk)ni=1ˆ=Y性质2:Yˆ=bˆ+bˆX+L+bˆX证明:QYi12i2kik进行1nå计算得,Yˆ=bˆ1+bˆ2X2+L+bˆkXkni=1ˆ=Y=Xb1nXj=åXij,j=1,2L,k;X1º1ni=1ˆ+bˆX+L+bˆX+uˆi证明:QYi=b12i2kik1nˆ+bˆX+L+bˆX+uˆ进行å计算得,Y=b122kkni=1ˆˆ=0,\\Y=XbQuˆ=X¢Yˆ¢uˆ=0,X¢Xb性质3:Yˆˆ=Xb证明:QYˆ¢uˆ(ˆ)ˆ=(Xb\\Y)¢Y-Xbˆ)¢((X¢)-1X¢ˆ)-(Xbˆ)¢Xbˆ=(XbXb=029ˆ+uˆY=YˆYˆu30ˆ与向量uˆ正交几何意义:向量Y四、参数估计量的性质在满足基本假设的情况下,其结构参数b的普通最小二乘估计具有:v线性性、无偏性、有效性。随着样本容量增加,参数估计量具有:v渐近无偏性、渐近有效性、一致性。1、线性性ˆ是Y的线性函数(1)biˆˆ是Y的线性函数Qb=[(X¢X)-1X¢]Y,而X是固定的\\bi2、无偏性ˆ=[(X¢X)-1X¢]Y=[(X¢X)-1X¢](Xb+u)Qb=b+[(X¢X)-1X¢]uˆ)=b+[(X¢X)-1X¢]E(u)=b\\E(b这里利用了假设: E(X’m)=03、有效性(最小方差性)ˆ)=s2(X¢X)-1(1) var(bˆ)=E[(bˆ-b)(bˆ-b)¢]var(bˆ是u的线性函数(2)bi31ˆˆ是u的线性函数¢)-1X¢](Xb+u)\\bQb=[(X¢X)-1X¢]Y=[(XXi(2)OLS估计的方差是所有对总体参数¢的线性无偏估计量-1-1=E{éuùë(X¢X)X¢uùûéë(X¢X)X¢û}中方差最小的。=(X¢X)-1X¢E(uu¢)X(X¢X)-1但并不意味着就是32=s2(X¢X)-1其中,E(uu¢)=s2I方差最小的估计量。ˆ2:s2的估计量sˆ¢uˆuˆ2=sn-k其中n是样本容量,k是参数个数,样本容量问题⒈最小样本容量所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。样本最小容量必须不少于模型中解释变量的数目(包括常数项),即n³k+1因为,无多重共线性要求:秩(X)=k+13334ˆ)的估计量var(bˆ)=s2(X¢X)-1,其估计值是sˆ2(X¢X)-1var(bˆ)=s2(X¢X)-1,其估计值是sˆ2(X¢X)-1var(biiiii2、满足基本要求的样本容量从统计检验的角度:n>30 时,Z检验才能应用;n-k³8时, t分布较为稳定一般经验认为:当n³30或者至少n³3(k+1)时,才能说满足模型估计的基本要求。例企业管理费取决于两种重点产品的产量,线性回归模型是:Y=b1+b2X2+ b3X3+u样本数据为:年1234535模型的良好性质只有在大样本下才能得到理论上的证明管理费用31835A产品产量31524B产品产量636解:æ3öæ135öç÷ç÷æ51525öç1÷ç114÷Y=ç8÷;X=ç156÷;X¢X=ç155581÷ç÷ç÷ç÷ç2581129÷3124èøç÷ç÷ç5÷ç146÷èøèø-8öæ20öæ26.74.5-1ç÷çX¢Y=ç76÷;(X¢X)=ç4.51-1.5÷÷ç109÷ç-8-1.52.5÷èøèø-8öæ20öæ4öæ26.74.5ç÷ç÷-1ˆb=(X¢X)X¢Y=ç4.5-1.5÷ç1÷ç76÷=ç2.5÷ç-8-1.52.5÷ç109÷ç-1.5÷èøèøèøˆ所以回归模型为Y=4+2.5X2-1.5X3+u随机扰动项的方差s2的估计如下:Y¢Y=108æ20öˆ¢X¢Y=(42.5-1.5)ç76÷=106.5bç÷ç109÷èøˆY¢Y-bˆ¢X¢Y108-106.5ˆ¢uˆY¢Y-Y¢Xbuˆ2=s====1.75n-kn-kn-k5-3ˆ)=sˆ(X¢X)-1=1.75´26.7=6.8356se(b111-1ˆ)=sˆ(X¢X)22se(b=1.75´1=2.09172371ˆ)=sˆ(X¢X)-se(b333=1.75´2.5=1.581138v柯柏-道格拉斯生产函数vvvvvvvvvvvvv39柯柏-道格拉斯生产函数为:其对数形式为: vYi=b1X2ib2X3ib3euiReal Gross Product, Labor Days and Real Capital Input in theAgricultural Sector, Taiwan, 1958-1972YEAR = YearY = 实际总产值, Millions of NT $X2 = 劳动的天数, Millions of DaysX3 = 实际资本投入, Millions of NT $YEAR Y X2 X31958 16607.7 275.5 17803.71959 17511.3 274.4 18096.81960 20171.2 269.7 18271.81961 20932.9 267.0 19167.31962 20406.0 267.8 197.61963 20831.6 275.0 20803.5…lnYi=lnb1+b2lnX2i+b3lnX3i+ui=b0+b2lnX2i+b3lnX3i+uib0=lnb1v40vvvvvvvvvvvvvvvDependent Variable: LOG(Y)Method: Least SquaresDate: 11/28/06 Time: 17:11Sample: 1958 1972Included observations: 15LOG(Y)=C(1)+C(2)*LOG(X2)+C(3)*LOG(X3)Coefficient Std. Errort-Statistic C(1)-3.3384552.449508-1.362908C(2)1.4987670.5398032.776509C(3)0.48580.1020434.800487R-squaredAdjusted R-squaredS.E. of regressionSum squared residLog likelihood0.8030Mean dependent var0.870535S.D. dependent var0.074810Akaikeinfo criterion0.067158Schwarz criterion19.28156Durbin-Watson stat400Prob. 0.19790.01680.000410.096530.207914-2.170875-2.0292650.1083ˆ=-3.3384+1.4988lnX+0.49lnXlnYi2i3i(2.4495)(0.5398)(0.1020)(4.8005)t=(-1.3629)(2.7765)R=0.802估计总成本函数41350生产总成本3002502000246810df=12R=0.87052产出42v总成本曲线的S形状可由立方或三次多项式来刻划:Y表示总成本,X表示总产出。vvvvvvvvvvvvvvvvvvvvvvvvvvvYi=b0+b1Xi+b2Xi2+b3X33i+uiX Y1 1932 2263 2404 2445 2576 2607 2748 2979 35010 420vDependent Variable: YMethod: Least SquaresDate: 11/28/06 Time: 17:25Sample: 1 10Included observations: 10Y=C(1)+C(2)*X+C(3)*(X^2)+C(4)*(X^3)Coefficient Std. ErrorC(1)141.76676.375322C(2)63.4776.778607C(3)-12.9610.985665C(4)0.9395880.059106R-squaredAdjusted R-squaredS.E. of regressionSum squared residLog likelihood0.9983390.9975093.284911.74382-23.52865t-Statistic 22.2367813.28372-13.1500515.677Prob. 0.00000.00000.00000.0000276.100065.813635.5057305.62672.700212Mean dependent varS.D. dependent varAkaikeinfo criterionSchwarz criterionDurbin-Watson stat43ˆ=141.7667+63.4776X-12.9615X2+0.9396X3Yiiii(6.3753)(4.7786)(0.9587)(0.0591)(5.11.6)R2=0.998344要点与结论偏回归系数v偏相关系数vR2和调整的R2v多重共线性v矩阵表示的k元回归模型v45