1、- 1 -第四节 变量间的相关关系与统计案例考纲传真 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求 22 列联表)的思想、方法及其初步应用1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线如果散点图中点的分
2、布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法(2)回归方程:方程 x 是两个具有线性相关关系的变量的一组数据( x1, y1),( x2, y2),y b a ,( xn, yn)的回归方程,其中 , 是待定参数a b Error!3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据( x1, y1),( x2, y2),( xn, yn),其中( , )称为样x y 本点的中心(3)相关系数
3、当 r0 时,表明两个变量正相关;当 r0 时,表明两个变量负相关r 的绝对值越接近于 1,表明两个变量的线性相关性越强 r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系通常| r|大于 0.75 时,认为两个变量有很强的线性相关性4独立性检验- 2 -(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为 x1, x2和 y1, y2,其样本频数列联表(称为 22 列联表)为22 列联表y1 y2 总计x1 a b a bx2 c d c d总计 a
4、c b d a b c d构造一个随机变量 K2 ,其中 n a b c d 为样本容n ad bc 2 a b a c b d c d量常用结论1回归直线必过样本点的中心( , )x y2当两个变量的相关系数| r|1 时,两个变量呈函数关系基础自测1(思考辨析)判断下列结论的正误(正确的打“” ,错误的打“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系( )(2)通过回归直线方程 x 可以估计预报变量的取值和变化趋势( )y b a (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验( )(4)事件 X, Y 关系越密切,则由观测数据
5、计算得到的 K2的观测值越大( )答案 (1) (2) (3) (4)2在两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R2如下,其中拟合效果最好的是( )A模型 1 的相关指数 R2为 0.98B模型 2 的相关指数 R2为 0.80C模型 3 的相关指数 R3为 0.50D模型 4 的相关指数 R2为 0.25A R2越接近于 1,其拟合效果越好3已知回归直线的斜率的估计值是 1.23,样本点的中心为(4,5),若自变量的值为 10,则因变量的值约为( )A16.3 B17.3C12.38 D2.03C 设回归直线方程为 x ,根据已知得 51.234 ,
6、所以 0.08,所以当 x10y b a a a 时, 1.23100.0812.38.y 4下面是一个 22 列联表y1 y2 总计- 3 -x1 a 21 73x2 2 25 27总计 b 46则表中 a, b 处的值分别为_52,54 因为 a2173,所以 a52.又因为 a2 b,所以 b54.5为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下22 列联表:理科 文科男 13 10女 7 20已知 P(K23.841)0.05, P(K25.024)0.025.根据表中数据,得到 K2的观测值 k 4.844.则认为选修文50 1320 107 22
7、3272030科与性别有关系出错的可能性为_5% K2的观测值 k4.844,这表明小概率事件发生根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为 5%.相关关系的判断1已知变量 x 和 y 近似满足关系式 y0.1 x1,变量 y 与 z 正相关下列结论中正确的是( )A x 与 y 正相关, x 与 z 负相关B x 与 y 正相关, x 与 z 正相关C x 与 y 负相关, x 与 z 负相关D x 与 y 负相关, x 与 z 正相关C 由 y0.1 x1,知 x 与 y 负相关,即 y 随 x 的增大而减小,又 y 与 z 正相关,
8、所以 z随 y 的增大而增大,减小而减小,所以 z 随 x 的增大而减小, x 与 z 负相关2对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )- 4 -A r2 r40 r3 r1B r4 r20 r1 r3C r4 r20 r3 r1D r2 r40 r1 r3A 由相关系数的定义以及散点图可知 r2 r40 r3 r1.3 x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为_ x, y 是负相关关系;在该相关关系中,若用 y c1ec2x 拟合时的相关指数为 R ,用 x 拟合时的相关指数21 y b a 为 R ,则 R R ;2 21 2 x
9、, y 之间不能建立线性回归方程 在散点图中,点散布在从左上角到右下角的区域,因此 x, y 是负相关关系,故正确;由散点图知用 y c1ec2x 拟合比用 x 拟合效果要好,则 R R ,故正确; x, yy b a 21 2之间可以建立线性回归方程,但拟合效果不好,故错误规律方法 判定两个变量正、负相关性的方法1 画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2 相关系数: r0 时,正相关; r0 时,负相关.3 线性回归直线方程中: b 0时 , 正 相 关 ; b 6.635,故有 99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于 50 kg 的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法产量的中位数的估计值为50 52.35(kg)0.5 0.340.068- 12 -