1、1第十二章 相关与回归分析第一节 变量之间的相关关系相关程度与方向因果关系与对称关系第二节 定类变量的相关双变量交互分类(列联表)削减误差比例(PRE) 系数与 系数第三节 定序变量的相关分析同序对、异序对和同分对Gamma 系数肯德尔等级 相关系数( a 系数、 b与 c 系数)萨默斯系数(d 系数)斯皮尔曼等级相关( 相关)肯德尔和谐系数第四节 定距变量的相关分析相关表和相关图积差系数的导出和计算积差系数的性质第五节 回归分析线性回归积差系数的 PRE 性质相关指数 R第六节 曲线相关与回归可线性化的非线性函数实例分析(二次曲线指数曲线)一、填空1对于表现为因果关系的相关关系来说,自变量一
2、般都是确定性变量,依变量则一般是( 随机性 )变量。2变量间的相关程度,可以用不知 Y 与 X 有关系时预测 Y 的全部误差 E1,减去知道Y 与 X 有关系时预测 Y 的联系误差 E2,再将其化为比例来度量,这就是( 削减误差比例 ) 。3依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值 Y 围绕每个估计值 是服从( ) ;(2)分布中围绕每个可能的 值的c cY( )是相同的。4在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( 变化根据 )的变量,因变量是随( 自变量 )的变化而发生相应变化的变量。5根据资料,分析现象之间是否存在
3、相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ) ,并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 ) 。6积差系数 r 是( 协方差 )与 X 和 Y 的标准差的乘积之比。二、单项选择1当 x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说 x 与 y 之间存在( A )关系。A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关22评价直线相关关系的密切程度,当 r 在 0.50.8 之间时,表示( C ) 。A 无相关 B 低度相关 C 中等相关 D 高度相关3相关分析
4、和回归分析相辅相成,又各有特点,下面正确的描述有( D ) 。A 在相关分析中,相关的两变量都不是随机的;B 在回归分析中,自变量是随机的,因变量不是随机的;C 在回归分析中,因变量和自变量都是随机的;D 在相关分析中,相关的两变量都是随机的。4关于相关系数,下面不正确的描述是( B ) 。A 当 0 1 时,表示两变量不完全相关;rB 当 r=0 时,表示两变量间无相关;C 两变量之间的相关关系是单相关;D 如果自变量增长引起因变量的相应增长,就形成正相关关系。 5欲以图形显示两变量 X 和 Y 的关系,最好创建( D ) 。A 直方图 B 圆形图 C 柱形图 D 散点图6两变量 X 和 Y
5、 的相关系数为 0.8,则其回归直线的判定系数为( C ) 。A 0.50 B 0.80 C 0.64 D 0.907在完成了构造与评价一个回归模型后,我们可以( D ) 。A 估计未来所需样本的容量B 计算相关系数和判定系数C 以给定的因变量的值估计自变量的值D 以给定的自变量的值估计因变量的值8两变量的线性相关系数为 0,表明两变量之间( D ) 。A 完全相关 B 无关系 C 不完全相关 D 不存在线性相关9身高和体重之间的关系是( C ) 。A 函数关系 B 无关系 C 共变关系 D 严格的依存关系10在相关分析中,对两个变量的要求是( A ) 。A 都是随机变量 B 都不是随机变量C
6、 其中一个是随机变量,一个是常数 D 都是常数11在回归分析中,两个变量( D ) 。A 都是随机变量 B 都不是随机变量C 自变量是随机变量 D 因变量是随机变量12一元线性回归模型和多元线性回归模型的区别在于只有一个( B ) 。A 因变量 B 自变量 C 相关系数 D 判定系数13以下指标恒为正的是( D ) 。A 相关系数 r B 截距 a C 斜率 b D 复相关系数14下列关系中,属于正相关关系得是( A ) 。A 身高与体重 B 产品与单位成本C 正常商品的价格和需求量 D 商品的零售额和流通费率三、多项选择1关于积差系数,下面正确的说法是( ABCD ) 。A 积差系数是线性相
7、关系数3B 积差系数具有 PRE 性质C 在积差系数的计算公式中,变量 X 和 Y 是对等关系D 在积差系数的计算公式中,变量 X 和 Y 都是随机的2关于皮尔逊相关系数,下面正确的说法是( ) 。A 皮尔逊相关系数是线性相关系数 B 积差系数能够解释两变量间的因果关系 C r 公式中的两个变量都是随机的 D r 的取值在 1 和 0 之间E 皮尔逊相关系数具有 PRE 性质,但这要通过 r2 加以反映3简单线性回归分析的特点是( ABE ) 。A 两个变量之间不是对等关系B 回归系数有正负号C 两个变量都是随机的D 利用一个回归方程,两个变量可以互相推算E 有可能求出两个回归方程4反映某一线
8、性回归方程 y=a+bx 好坏的指标有( ABD ) 。A 相关系数 B 判定系数C b 的大小 D 估计标准误 E a 的大小5模拟回归方程进行分析适用于( ACDE ) 。A 变量之间存在一定程度的相关系数B 不存在任何关系的几个变量之间C 变量之间存在线性相关D 变量之间存在曲线相关E 时间序列变量和时间之间6判定系数 r2=80%和含义如下( ABC ) 。A 自变量和因变量之间的相关关系的密切程度B 因变量 y 的总变化中有 80%可以由回归直线来解释和说明C 总偏差中有 80%可以由回归偏差来解释D 相关系数一定为 0.64 E 判定系数和相关系数无关7回归分析和相关分析的关系是(
9、 ABE ) 。A 回归分析可用于估计和预测B 相关分析是研究变量之间的相互依存关系的密切程度C 回归分析中自变量和因变量可以互相推导并进行预测D 相关分析需区分自变量和因变量E 相关分析是回归分析的基础8以下指标恒为正的是( BC ) 。A 相关系数 B 判定系数 C 复相关系数 D 偏相关系数 E 回归方程的斜率9一元线性回归分析中的回归系数 b 可以表示为(BC)A 两个变量之间相关关系的密切程度B 两个变量之间相关关系的方向C 当自变量增减一个单位时,因变量平均增减的量D 当因变量增减一个单位时,自变量平均增减的量4E 回归模型的拟合优度10关于回归系数 b,下面正确的说法是( ) 。
10、A b 也可以反映 X 和 Y 之间的关系强度。 ; B 回归系数不解释两变量间的因果关系; C b 公式中的两个变量都是随机的; D b 的取值在 1 和-1 之间;E b 也有正负之分。四、名词解释1消减误差比例变量间的相关程度,可以用不知 Y 与 X 有关系时预测 Y 的误差 ,减去知道 Y 与 X0E有关系时预测 Y 的误差 ,再将其化为比例来度量。将削减误差比例记为 PRE。1E2 确定性关系当一个变量值确定后,另一个变量值夜完全确定了。确定性关系往往表现成函数形式。3非确定性关系在非确定性关系中,给定了一个变量值,另一个变量值还可以在一定范围内变化。4因果关系变量之间的关系满足三个
11、条件,才能断定是因果关系。1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。5单相关和复相关单相关只涉及到两个变量,所以又称为二元相关。三个或三个以上的变量之间的相关关系则称为复相关,又称多元相关。6正相关与负相关正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。7散点图散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以
12、直观地观察X 与 Y 的相互关系,即得相关图,又称散点图。8皮尔逊相关系数 r皮尔逊相关系数是协方差与两个随机变量 X、Y 的标准差乘积的比率。9同序对在观察 X 序列时,如果看到 ,在 Y 中看到的是 ,则称这一配对是同ijij序对。10异序对在观察 X 序列时,如果看到 ,在 Y 中看到的是 ,则称这一配对是异ij ij序对。11同分对如果在 X 序列中,我们观察到 (此时 Y 序列中无 ) ,则这个配对仅是 XijX=ij=方向而非 Y 方向的同分对;如果在 Y 序列中,我们观察到 (此时 X 序列中无) ,则这个配对仅是 Y 方向而非 X 方向的同分对;我们观察到 ,也观察到ij= i
13、j,则称这个配对为 X 与 Y 同分对。5五、判断题1由于削减误差比例的概念不涉及变量的测量层次,因此它的优点很明显,用它来定义相关程度可适用于变量的各测量层次。 ( )2不管相关关系表现形式如何,当 1 时,变量 X 和变量 Y 都是完全相关。 ( r)3不管相关关系表现形式如何,当 0 时,变量 X 和变量 Y 都是完全不相关。 ( )4通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。而如果两变量间是相关的话,必然存在着 Y 的相对频数条件分布相同,且和它的相对频数边际分布相同。 ( )5如果众数频数集中在条件频数分布列联表的同一行中, 系数便会等于 0,从
14、而无法显示两变量之间的相关性。 ( )6从分析层次上讲,相关分析更深刻一些。因为相关分析具有推理的性质,而回归分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。 ( )六、计算题1对某市市民按老中青进行喜欢民族音乐情况的调查,样本容量为 200 人,调查结果示于下表,试把该频数列联表:转化为相对频数的联合分布列联表转化为相对频数的条件分布列联表;指出对于民族音乐的态度与被调查者的年岁有无关系,并说明理由。 年岁(X)对于民族音乐的态度(Y) 老 中 青 喜 欢 不喜欢38 38 3015 33 462已知十名学生身高和体重资料如下表, (1)根据下述资料算出身高和体重的皮尔逊相关系
15、数和斯皮尔曼相关系数;(2)根据下述资料求出两变量之间的回归方程(设身高为自变量,体重为因变量) 。身高(cm) 171 167 177 154 169体重(kg) 53 56 64 49 55身高(cm) 175 163 152 172 1626体重(kg) 66 52 47 58 50【皮尔逊相关系数:0.889,斯皮尔曼相关系数:0.94,回归方程:Y=-54.48+0.66X】3假定有不同文化程度的 3545 岁育龄妇女 100 人的生育情况如下表,求文化程度与平均生育数的相关系数 r。序号 一 二 三 四 五育龄妇女人数 20 20 20 20 20文化程度(年)平均生育数04.74
16、63.3193.08122.41161.944某市有 12 所大专院校,现组织一个评审委员会对各校校园及学生体质进行评价,结果如下,试求环境质量与学生体质的关系的斯皮尔曼相关系数和肯得尔等级相关系数。环境名次 3 9 7 5 12 8 10 2 11 4 1 6体质名次 5 9 6 7 12 8 11 1 10 3 2 4【斯皮尔曼相关系数:0.94,肯德尔等级相关系数:0.83】5以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度之Gamma 系数和肯德尔相关系数 c。文化程度婚姻美满 大学 中学 小学美 满 9 16 5一 般 8 30 18不美满 3 4 7【 c=0.1
17、8】6以下为两位评判员对 10 名参赛人名次的打分。试用斯皮尔曼等级相关系数来描述两评判员打分的接近程度。参赛人 A B C D E F G H I J评判员 1评判员 21122433455866778991010【斯皮尔曼相关系数:0.95】7某原始资料为:X 65 73 91 88 76 53 96 67 82 857Y 5 7 13 13.5 7 4.5 15 6.7 10 11要求:(1)求回归方程;(2)这是正相关还是负相关;(3)求估计标准误差;(4)用积差法求相关系数。 【Y=-11.48+0.27X】 【正相关】 【相关系数r=0.95】8两变量 X、Y 之间的关系如下表,X
18、 2 4 6 8 10 12Y 14 10 9 7 5 4(1)求回归方程; (2)求相关系数。 【Y=-0.957X+14.867】【r=0.98】9试就下表所示资料,计算关于身高和体重的皮尔逊相关系数。N0 身高(厘米) 体重(千克)1234567891016016116516516717017217417618051565966637069738065【r=0.77】10青年歌手大奖赛评委会对 10 名决赛选手的演唱水平(X)和综合素质(Y)进行打分,评价结果如下表(表中已先将选手按演唱水平作了次序排列)所示,试计算选手的演唱水平和综合素质间的肯德尔等级相关系数及斯皮尔曼等级相关系数。选
19、手名 A B C D E F G H I J 演唱水平(X)综合素质(Y)1 2 3 4 5 6 7 8 9 10 3 1 5 2 7 4 10 8 6 9 【肯德尔系数:0.56,斯皮尔曼系数:0.76】11青年歌手大奖赛,假设五位评委对 10 名决赛选手的演唱水平进行排序,他们的有关评价结果列于下表,试通过计算肯德尔和谐系数,检验专家意见的一致性和相关程度。810 名决赛选手五位评委 A B C D E F G H I JABCDE1 2 3 4 5 6 7 8 9 103 2 1 4 5 8 9 7 10 61 3 2 4 8 7 6 5 9 104 2 1 5 3 10 8 6 7 9
20、5 2 1 9 3 8 4 6 10 7【0.76】12某地区失业率与通货膨胀率之间的资料如下表所示,试求:(1)拟合指数回归方程 ;(2)失业率与通货膨胀率之间的相关系数。cYxab失业率(%)1.0 1.6 2.0 2.5 3.1 3.6 4.0 4.5 5.1 5.6 6.0 6.5通胀率(%)1.6 1.5 1.1 1.3 0.6 0.9 0.8 0.8 0.7 0.6 0.6 0.6【 】 【相关系数xey1803.7.0.76】13试就下表所示资料,求算员工工作满足感高与归属感之 Gamma 系数,并解释Gamma 系数具有削减误差比例 PRE 性质。工作满足感与归属感工作满足感(
21、X) 归属感(Y) 低(1) 中(2) 高(3)YF低(1)中(2)高(3)8 4 36 5 14 4 5151213Fx 18 13 9 40【G=0.092】14已知相关系数 r0.6,估计标准误差 8,样本容量为 62。求: XYS1)剩余变差值;2)剩余变差占总变差的百分比;3)求总变差值。915在相关和回归分析中,已知下列资料:16, 25, 19,a30。2XS2Y2XYS要求:1)计算相关系数 r,说明相关程度; 2)求出直线回归方程。16在相关和回归分析中,已知下列有关资料: 5, 10,n20,r0.9,XSY2000。试计算:2)(Y1)回归系数 b;2)回归变差和剩余变差
22、;3)估计标准误差 。XYS17根据下述假设资料求回归方程。X 1 2 3 4 5 6 7Y 23.0 23.4 24.1 25.2 26.1 26.9 27.318某 10 户家庭样本具有下列收入(元)和食品支出(元/周)数据:收入(X) 20 30 33 40 15 13 26 38 25 43支出(Y) 7 9 8 11 5 4 8 10 9 10要求:1)写出最小平方法计算的回归直线方程;2)在 95.46把握下,当 X45 时,写出 Y 的预测区间。19根据下述假设资料,试用积差法求相关系数。输出 X(亿元) 12 10 6 16 8 9 10输出 Y(亿元) 12 8 6 11 1
23、0 8 1120对 40 个企业的横截面样本数据进行一元回归分析,因变量与其平均数的离差平方和为 6000,而回归直线拟合的剩余变差为 2000,求:1)变量间的相关指数 R;2)该方程的估计标准误差。七、问答题1简述积差系数的特性。2简述回归分析和相关分析之间的密切联系。10部分计算参考:(见计算题六)2. 已知十名学生身高和体重资料如下表, (1)根据下述资料算出身高和体重的皮尔逊相关系数和斯皮尔曼相关系数;(2)根据下述资料求出两变量之间的回归方程(设身高为自变量,体重为因变量) 。皮尔逊相关系数与回归方程编号 身 体重编号 身高(cm) 体重(kg)1 171 532 167 563
24、177 644 154 495 169 556 175 667 163 528 152 479 172 5810 162 502x2y11高(cm)x(kg)y xy1 171 53 29241 2809 90632 167 56 27889 3136 93523 177 64 31329 4096 113284 154 49 23716 2401 75465 169 55 28561 3025 92956 175 66 30625 4356 115507 163 52 26569 2704 84768 152 47 23104 2209 71449 172 58 29584 3364 997
25、610 162 50 26244 2500 8100合计 1662 550 276862 30600 918302222nxyr 0.89()(y)22b0.659()yxa=4.7n+-5.9斯皮尔曼相关系数编号 身高(cm)次序 体重(kg)次序 d1 171 4 53 6-2 42 167 6 56 4 2 43 177 1 64 2 -1 14 154 9 49 9 0 05 169 5 55 5 0 06 175 2 66 1 1 17 163 7 52 7 0 08 152 10 47 100 09 172 3 58 30 010 162 8 50 80 0合计 102d122s6
26、dr1-0.94n()4. 某市有 12 所大专院校,现组织一个评审委员会对各校校园及学生体质进行评价,结果如下,试求环境质量与学生体质的关系的斯皮尔曼相关系数和肯得尔等级相关系数。环境名次 3 9 7 5 12 8 10 2 11 4 1 6体质名次 5 9 6 7 12 8 11 1 10 3 2 4斯皮尔曼等级相关系数环境名次 体质名次d3 5 -2 49 9 0 07 6 1 15 7 -2 412 12 0 08 8 0 010 11 -1 12 1 1 111 10 1 14 3 1 11 2 -1 16 4 2 4合计 182sdr-0.9n(1)肯德尔等级相关系数A B C D
27、 E F G H I J K L环境名次(x)3 9 7 5 12 8 10 2 11 4 1 6体质名次(y)5 9 6 7 12 8 11 1 10 3 2 41) A: 同序对 AC AB AD AE AF AG AH AI AK 9 异序对 AJ AL 22132) B: 同序对 BC BD BG BH BI BJ BK BL BE BF 10 3) C: 同序对 CE CF CG CH CI CJ CK CL 8 异序对 CD 14 D: 同序对 DE DF DG DH DI DJ DK 7 异序对 DL 15) E: 同序对 EG EH EI EJ EK EL EF 7 6) F:
28、 同序对 FG FH FI FJ FK FL 67) G: 同序对 GH GJ GK GL 4 异序对 GI 18) H: 同序对 HI HJ HK HL 49) I: 同序对 IJ IK IL 3 10)J: 同序对 JK JL 211)K: 同序对 KL 1合计:同序对 异序对sn61dn5sda0.831()25. 以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度Gamma 系数和肯德尔相关系数 c。文化程度婚姻美满 大学 中学 小学美 满 9 16 5一 般 8 30 18不美满 3 4 7=9(30+18+4+7)+16(18+7)+8(4+7)+307=1229s
29、n=5(30+8+3+4)+18(3+4)+16(8+3)+303=617d0.18sdc2n1(m)/6以下试两位评判员对 10 名参赛人名次的打分。试用斯皮尔曼等级相关系数来描述两评判员打分的接近程度。参赛人 A B C D E F G H I J评判员 1评判员 21122433455866778991010参赛人 评审员 1 评审员 2 d 214A 1 1 0 0B 2 2 0 0C 4 3 1 1D 3 4 -1 1E 5 5 0 0F 8 6 2 4G 6 7 -1 1H 7 8 -1 1I 9 9 0 0J 10 10 0 0合计 82s6dr1-0.5n()7某原始资料为:X
30、 65 73 91 88 76 53 96 67 82 85Y 5 7 13 13.5 7 4.5 15 6.7 10 11要求:(1)求回归方程;(2)这是正相关还是负相关;【正相关】(3)求估计标准误差;(4)用积差法求相关系数。X Y xy65 5 4225 25 32573 7 5329 49 51191 13 8281 169 118388 13.5 7744 182.25 118876 7 5776 49 53253 4.5 2809 20.25 238.596 15 9216 225 144067 6.7 4489 44.89 448.982 10 6724 100 82085
31、11 7225 121 935776 92.7 61818 985.39 7621.4222222nxyr 0.95()(y)b0.67yxa=1.4n+-.717根据下述假设资料求回归方程。X 1 2 3 4 5 6 7Y 23.0 23.4 24.1 25.2 26.1 26.9 27.3编号 x y 2x2y2x2y15xy1 1 23.0 1 529 232 2 23.4 4 547.56 46.83 3 24.1 9 580.81 72.34 4 25.2 16 635.04 100.85 5 26.1 25 681.21 130.56 6 26.9 36 723.61 161.47
32、 7 27.3 49 745.29 191.1合计 28 176.0 140 4442.52 725.97r a b0.992832 22.0143 0.78214322nxyb0.78()a=.14y+x.x18某 10 户家庭样本具有下列收入(元)和食品支出(元/周)数据:收入(X) 20 30 33 40 15 13 26 38 25 43支出(Y) 7 9 8 11 5 4 8 10 9 10要求:1)写出最小平方法计算的回归直线方程;2)在 95.46把握下,当 X45 时,写出 Y 的预测区间。收入(X)支出(Y)xy20 7 400 49 14030 9 900 81 27033
33、 8 1089 64 26440 11 1600 121 44015 5 225 25 7513 4 169 16 5226 8 676 64 20838 10 1444 100 38024 9 576 81 21643 10 1849 100 430282 81 8928 701 247522nxyb0.196()a=.58y+x.x19根据下述假设资料,试用积差法求相关系数。2x2y16输出 X(亿元) 12 10 6 16 8 9 10输出 Y(亿元) 12 8 6 11 10 8 11输出x(亿元)输出y(亿元xy12 12 144 144 14410 8 100 64 806 6 36 36 3616 11 256 121 1768 10 64 100 809 8 81 64 7210 11 100 121 1102222nxyr 0.7()(y)2x2y