易妖游戏网
您的当前位置:首页spss终期考核作业

spss终期考核作业

来源:易妖游戏网


第六章 线性回归分析

2010级研究生:严飞 学号:20101108012

2. 多元线性回归的显著性检验包括哪些内容?如何进行?

答:经过查找资料并总结得出多元线性回归的显著性检验主要包括:拟合优度检验、方程显著性检验和变量显著性检验三种。

2

(一)拟合优度检验(R检验)

拟合优度检验是检验回归方程对样本观测值的拟合程度,即检验所有解释变量与被解释变量之间的相关程度。检验的方法是构造一个可以表征拟合程度的指标,这个指标是通过对总变差(总离差)的分解而得到。

总变差平方和S总是各个观察值与样本均值之差的平方和,反映了全部数据之间的差异;残差平方和S残是总变差平方和中未被回归方程解释的部分,由解释变量xl、x2„„xk中未包含的一切因素对被解释变量y的影响而造成的;回归平方和S回是总变差平方和中由回归方程解释的部分。

一个拟合得好的回归模型,体现在总体平方和与回归平方和的接近程度,即S总中S残越小越好。于是采用:

对回归方程的拟合优度进行检验。如果所有样本观测值都位于回归方程上,即:

此时回归方程完全拟合了样本观测值,R等于1。如果R越接近1,则说明回归方程的拟合优度越高。

(二)方程显著性检验(F检验)

方程显著性检验就是对模型中解释变量与被解释变量之间的线性关系在总体上是否显著成立作出推断。即检验被解释变量y与所有解释变量 xl、x2„„xk 之间的线性关系是否显著,方程显著性检验所应用的方法是数理统计学中假设检验。 检验的原假设H0与对立假设H1分别为: H0:β0=β1„„=βk=0

H1:至少有一个β1不为零

应用数理统计理论可以证明:S回与S残相互,且当:H0:β0=β1„„=βk=0为真时,S回与S残分别

2

服从自由度为k、n-k-1的X分布,故有:

即:F统计量服从以(k、n-k-1)为自由度的F分布。

首先根据样本观测值及回归值计算出统计量F,于是在给定的显著性水平α下,若F>Fα (K、n-k-1),则拒绝H0,判定被解释变量y与所有解释变量 xl、x2„„xk之间的回归效果显著,即确实存在线性关系;反之,则不显著。

(三)变量显著性检验(t检验)

R检验和F检验都是将所有的解释变量作为一个整体来检验它们与被解释变量y的相关程度以及回归效果,但对于多元回归模型,方程的总体显著性并不意味每个解释变量对被解释变量y的影响都是显著的。如果某个解释变量并不显著,则应该从方程中把它剔除,重新建立更为简单的方程。所以必须对每个解释变量进行显著性检验。等价于对每个解释变量检验假设: H0: βj=0 H1: βj≠0

其中j=0,1,2„„k。

应用数理统计理论可以证明:当:H0: βj=0为真时,统计量tj服从自由度为(n-k-1)的t分布,即:

2

在给定的显著性水平α下: 若︱tj︱>tα/2 (n-k-1),则拒绝H0,说明解释变量xj对被解释变量y有显著影响,即xj是影响Y的主要因素;反之,接受 ,说明解释变量xj对被解释变量y无显著影响,则应删除该因素。

当影响Y的主要因素只有一个变量x时,问题变成了元回归分析,此时t检验和F检验的作用是一样的,因此可以不用再做F检验。

3. 如何建立多元线性回归方程?偏相关系数有何意义?

答:

(一) 建立多元线性回归方程的步骤可总结如下:

1)确定研究目标,即明确建立回归方程的自变量变量和因变量,然后在一定样本中取得自变量与因变量所对应的观测值。通常,预测变量是现实中容易测量的,被预测变量则是现实中较难测量或是指未来发展的结果。

2)利用散点图或相关分析确定自变量与因变量之间是否存在线性关系。

3)利用确定的计算方法或计算机软件计算回归方程的回归常数和回归系数,得到回归方程。 4)进行拟合优度检验。就是检验样本数据聚集在样本回归线周围的密集程度,从而判断回归方程对样本数据的代表程度。多元线性回归方程中由于引入的自变量不同,所以比较不同回归方程的拟合度时需要使用调整后的拟合度判定系数。 5)回归方程的显著性检验。回归方程显著性检验是对因变量与自变量之间线性关系是否显著的一种检验。检验方法采用方差分析 :F值等于平均的回归平方和与平均的残差平方和之比。 6)对回归系数的显著性检验(t 检验)。回归方程显著性检验是从总体上显示回归系数显著,多元线性回归,还需分别检验各回归系数的显著性。

(二)偏相关系数的意义

在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关。用来表示两个相关变量偏相关的性质与程度的统计量叫偏相关系数,绝对值越大,偏相关程度越大。根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数。

1)当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。

2)当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12-3,类似地,还有偏相关系数r13-2、 r23-1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。

3)当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性

2质与程度。二级偏相关系数共有C46个:r12-34,r13-24,r14-23,r23-14,r24-13,r34-12。

一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共

2Cm(m2)/2个。x与x的m-2级偏相关系数记为r.(i,j=1,2,…,m,i≠j)。 m有ijij

偏相关系数的取值范围为[-1,1],即:-1≤rij.≤1。

5. 如何将多项式回归转化为多元线性回归?

多项式回归问题可以通过变量转换化为多元线性回归问题来解决。

2m对于一元m次多项式回归方程(9-35),令x1x 、x2=x、„、xm=x,则(9-35)就转化

为m 元线性回归方程:

因此用本章第一节的方法就可解决多项式回归问题。需要指出的是,在多项式回归分析中,检验回归系数bi是否显著,实质上就是判断自变量x的i次方项xi对依变量y的影响是否显著。 对于二元二次多项式回归方程(9-36),令(9-36)就转化为五元线性回归方程:

z1x1、z2x2、z3x12、z4x22、z5x1x2ˆb0b1x1b2x2bmxm y,则

ˆb0b1z1b2z2b3z3b4z4b5z5 y

但随着自变量个数的增加,多元多项式回归分析的计算量急剧增加,于是就需要转化为多元线性回归方程进行分析了。

下面是我找的一具体实例对一元二次多项式回归作详细介绍:(大体上了解了多项式回归转化为

多元回归的具体过程,不过其中数学水平要求高,还是有些地方不是很清楚,会继续努力看明白的)

【例9.3】 给动物口服某种药物A 1000mg,每间隔1小时测定血药浓度(g/ml),得到表

9-5的数据(血药浓度为5头供试动物的平均值)。试建立血药浓度(依变量y)对服药时间(自变量x)的回归方程。

表9-5 血药浓度与服药时间测定结果表

服药时间x(小时) 血药浓度y(g/ml)

1 21. 22.7182 -0.8282

2 47.13 46.2563 0.8737

3 61.86 62.2684 -0.4084

4 70.78 70.7545 0.0255

5 72.81 71.7146 1.0954

6 66.36 65.1487 1.2113

7 50.34 51.0568 -0.7168

8 25.31 29.43 -4.1298

9 3.17 0.2950 2.8750

ˆ yy-

ˆ y (一)根据表9-5的数据资料绘制x与y的散点

图 (见下图)。由散点图我们看到:血药浓度最大值出现在服药后5小时,在5小时之前血药浓度随时间的增加而增加,在5小时之后随着时间的增加而减少,散点图呈抛物线形状,因此我们可以选用一元二次多项式来描述血药浓度与服药时间的关系,即进行一元二次多项式回归或抛物线回归。

图1 表9-5资料的散点图

(二)进行变量转换 设一元二次多项式回归方程为:

ˆb0b1xb2x2 y令x1x、x2x2,则得二元线性回归方程 ˆb0b1x1b2x2 y (三)进行二元线性回归分析 先计算得:

x1x45, x2x2285, y419.65

2422x15333, y24426.5833 x12x285, x2x1x2x32025,x1yxy1930.45,xyx2y10452.11

2再计算得:

SS160.0000, SS26308.0000, SSy4859.23SP12600.0000, SP10167.8000, SP202836.8067

x15.0000, x231.6667, y46.6278于是得到关于b1、b2的正规方程组为:

60.0000b1600.0000b2167.8000600.0000b6308.0000b2836.8067

12求出上述正规方程组系数矩阵的逆矩阵为:

c0.3413490.032468cC1112 cc0.0324680.0032472122关于b1、b2的解为:

b1c11c12SP10b2c21c22SP200.3413490.032468167.8000 2836.8067 0.0324680.00324734.8271 3.7630即:b134.8217, b23.7630

而b0yb1x1b2x246.627834.827153.763031.66678.3459 于是得到二元线性回归方程为:

ˆ8.345934.8271x13.7630x2 y现在对二元线性回归方程或二元线性回归关系进行显著性检验。

SSy4859.23

SSRb1SPbSP10220 SSrSSySSR4859.234830.916228.3202 dfyn1918,dfR2,dfrdfydfR826 列出方差分析表,进行F检验。

表9-6 二元线性回归关系方差分析表

变异来源 回 归 离回归 总变异

由df12,df26查F值表得F0.01(2,6)10.92,因为F>F0.01(2,6),P<0.01,表明二元线性回归关系是极显著的。

偏回归系数b1、b2的显著检验,应用F检验法:

SS

4830.9162 28.3202 4859.23

df 2 6 8

MS 2415.4581 4.7200

F 511.750**

SSb1b1c1134.827120.3413493553.3337 SSb2b2c22(3.7630)20.0032474361.0006

Fb1MSb1MSrSSb11MSr3553.3337752.825**

4.720022Fb2MSb2MSrSSb21MSr4361.0006923.941**

4.7200由df11,df26查F值表得F0.01(1,6)13.47,因为Fb1F0.01(1,6)、Fb2F0.01(1,6),表明偏回归系数b1和b2都是极显著的。

(四)建立一元二次多项式回归方程 将x1还原为x,x2还原为x2,即得y对x的一

元二次多项式回归方程为:

ˆ8.345934.8271x3.7630x2 yˆ)233.1111,(yy)4859.23,相关指(五)计算相关指数R2 因为(yy2数R2为:

2ˆ(yy)R210.9932 2(yy)表明y对x的一元二次多项式回归方程的拟合度是比较高的,或者说该回归方程估测的可靠程度是比较高的。

6. 某地区的人均收入与同期某种耐用消费品的销售额之间的统计资料如下表所示。现要求确定两者之间是否存在相关关系。 年 份 人均收入 1987 1.6 1988 1.8 5.9 19 2.3 7.0 1990 3.0 8.2 1991 3.4 10.5 1992 3.8 12 1993 4.5 13 1994 4.8 13.5 1995 5.2 14 1996 5.4 15 销售额(百万元) 4.7 具体操作步骤:

1)输入数据 (图1)

图1 2)分析 (图2 )

图2 3)变量选择 (图3)

图3 4)结果 (图4)

通过以上步骤获得结果显示,人均收入与同期某种耐用消费品的销售额之间存在显著相关关系。

7.一家商场2003~2005年个季度的销售额数据如下表所示。试建立一个多元回归模

型预测2006,、2007年每季度的销售额。

季度/年 1 2 3 4

销售额 2003年 30 2500 19 4365 3840 2190 1765 4213 2004年 4125 3146 1434 4531 2005年

1.数据输入

2.分析:

点击分析—回归—线性(L)

设置统计量

点击“统计量”进入统计量设置菜单 设置完成点击继续回到主界面

绘图设置

点击“绘制”进入并设置,设置完成点击继续回到主界面。

保存设置 选项摄体

点击“保存”,并设置,设置完成点击继续返回。 点击“选项”,并设置,再点击继续回到主界面

设置完成上述参数,点击主界面“确定”,得到如下结果:

REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN

/DEPENDENT 销售额

/METHOD=ENTER 年份 季度

/SCATTERPLOT=(*SDRESID ,*ZPRED) (*ZRESID ,*ZPRED) /RESIDUALS HIST(ZRESID)

/CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE COOK LEVER MCIN ICIN. 回归

附注 创建的输出 注释 输入 活动的数据集 过滤器 权重 拆分文件 工作数据文件中的 N 行 缺失值处理 对缺失的定义 使用的案例 22-十一月-2011 16时20分18秒 数据集0 12 用户定义的缺失值作为缺失数据对待。 统计是在所使用的变量不带有缺失值的案例基础上进行的。 语法 REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) CIN(95) /NOORIGIN /DEPENDENT 销售额 /METHOD=ENTER 年份 季度 /SCATTERPLOT=(*SDRESID (*ZRESID ,*ZPRED) /RESIDUALS HIST(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(3) /SAVE COOK LEVER MCIN ICIN. 资源 处理器时间 已用时间 所需内存 残差图需要额外内存 创建或修改的变量 COO_1 LEV_1 LMCI_1 UMCI_1 LICI_1 UICI_1 0:00:01.922 0:00:02.250 14 个字节 832 个字节 Cook's Distance Centered Leverage Value 销售额 的 95% 平均置信区间下限 销售额 的 95% 平均置信区间上限 销售额 的 95% 单个置信区间下限 销售额 的 95% 单个置信区间上限 ,*ZPRED)

数据集0]

输入/移去的变量b 模型 1 输入的变量 移去的变量 方法 输入 季度, 年份a . a. 已输入所有请求的变量。 b. 因变量: 销售额 模型汇总b 模型 1 R .175a R 方 .031 调整 R 方 标准 估计的误差 -.185 1112.5668 a. 预测变量: (常量), 季度, 年份。 b. 因变量: 销售额 Anovab 模型 1 回归 残差 总计 平方和 352741.267 1.114E7 1.149E7 df 2 9 11 均方 176370.633 1237804.970 F .142 Sig. .869a a. 预测变量: (常量), 季度, 年份。 b. 因变量: 销售额 系数a 非标准化系数 模型 1 (常量) 年份 季度 a. 因变量: 销售额 B -370673.167 186.500 70.467 标准 误差 788277.356 393.352 287.2 标准系数 试用版 .156 .081 t -.470 .474 .245 Sig. .9 .7 .812 共线性统计量 容差 1.000 1.000 VIF 1.000 1.000 系数相关a 模型 1 相关性 季度 年份 协方差 季度 年份 a. 因变量: 销售额

季度 1.000 .000 82520.331 .000 年份 .000 1.000 .000 154725.621

共线性诊断a 方差比例 模型 1 维数 1 2 3 特征值 2.884 .116 8.300E-8 条件索引 1.000 4.996 55.070 (常量) .00 .00 1.00 年份 .00 .00 1.00 季度 .02 .98 .00 a. 因变量: 销售额 残差统计量a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: 销售额 极小值 2956.800 -1.632 351.825 2435.662 -1519.2333 -1.366 -1.439 -1688.0370 -1.547 .183 .007 .017 极大值 3541.200 1.632 665.993 3771.720 1196.8000 1.076 1.343 1865.1428 1.416 3.025 .336 .275 均值 3249.000 .000 546.118 3121.731 .0000 .000 .049 127.2692 .046 1.833 .119 .167 标准 偏差 179.0737 1.000 110.570 399.8730 1006.3546 .905 1.043 1346.5097 1.066 1.022 .097 .093 N 12 12 12 12 12 12 12 12 12 12 12 12 图表

结果:

根据结果中“系数a”表格给出的模型的回归系数估计值,并由此模型建立多元线性回归方程为:销售额=-370673.167+186.5*年+70.467*季度 (年用y表示,季度用J表示,销售额用Y表示)

Y=-370673.167+186.5*y+70.467*J

再通过此模型多元回归方程预测2006和2007年个季度的销售额如下表: 季度/年 销售额 2006年 2007年 1 3516 3703 2 3587 3773 3 3657 3844 4 3727 3914

因篇幅问题不能全部显示,请点此查看更多更全内容