第八章 相关与回归分析,8.1 相关与回归概述 8.2 一元线性回归分析,平均数、标准差是对单变量进行描述的特征量。若对两个变量之间的变化关系进行描述,就需要采用相关量。相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分
医学统计学--第九章 双变量回归与相关Tag内容描述:
1、系的测定,8.1 相关与回归概述, 出租汽车费用与行驶里程:总费用=行驶里程 每公里单价, 家庭收入与恩格尔系数:考虑家庭收入、消费支出结构。
,函数关系 (确定性关系),相关关系 (非确定性关系),比较下面两种现象间的依存关系,依存关系可以分成两种类型:,函数关系,指现象间所具有的严格的确定性的依存关系,相关关系,指客观现象间确实存在,但数量上不是严格对应的依存关系,二者在一定条件下可以相互转化。
有些函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为函数关系。
函数关系反映了现象间关系的理想化状态;相关关系反映了现象间关系的现实化状态。
,函数关系和相关关系的联系和区别,一、相关分析与回归分析,1.概 念,研究现象间相关关系的两种基本方法,相关分析:是用一个指标(相关系数)来表明现象间相互依存关系的密切程度。
回归分析:是根据相关关系的具体形态,选择一个合适的数学模式,来近似地表达自变量和因变量之间的数量变化关系,进而确定一个或几个变量的变化对另一个特定变量的影响程度。
,(1)相关分析。
2、夫的身高和妻子的身高之间,就不能说有因果关系。
相关与回归就是用于研究和解释两个变量之间相互关系的。
,直线相关,Linear Correlation,2019/5/4,医学统计学,4,散点图,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。
例如,每人的身高和体重。
然后在直角坐标系上描述这些点,这一组点集称为散点图。
,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。
把1078对数字表示在坐标上,如图。
用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。
它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
,相关的类型,正相关 负相关 完全正相关 完全负相关 称零相关,相关系数,样本的相关系数用r (correlation coefficient)相关系数r的值在-1和1之间,但可以是此范围内的任何值。
正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个。
3、一条最能代表这些数据关系的一条直线。
方法:一般采用最小二乘法least square method找出一条各实测点与它的纵向距离的平方和为最小的直线回归方程。
又称作最小二乘回归 变量y随变量x而变化,称x为自变量independent variable,y为应变量dependent variable.,2、直线回归方程 直线方程:y=a+bx 直线回归方程:a:为回归直线在Y轴上的截距intercept,a0表示直线与纵轴的交点在原点的上方,ao直线从左下走向右上, b0从左上走向右下, b=0直线与横轴平行。
意义:x每增(减)一单位,Y平均改变b个单位,3、最小二乘法 样本含量为n的的样本资料标在(x,y)平面上,可得n个点,故可确定很多直线,直线回归的主要目标之一是用实测的x估计y,所以希望估计的y与实测的y间的误差愈小愈好。
即从所有直线中找到一条直线使估计误差平方和达最小。
即 最小,二、求直线回归方程的基本方法,P110例91: 1)由原始数据绘散点图,各点分布呈直线趋势,故作下列计算 2)求x, y, x2, y2, xy 3。
4、和相关分析的区别和联系。
四、授课时数:4+2学时五、教学方法:讲授法、对比教学法、案例教学法,六、教学内容:第一节 相关关系概述第二节 相关分析第三节 回归分析,第一节 相关关系概述,一、相关关系的概念两种不同类型的依存关系: 1、(确定的)函数关系指现象之间客观存在的严格的数量依存关系。
在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以用一个数学表达式(函数式)反映出来。
如:圆的面积与半径之间的关系,即,2、(不确定的)相关关系指现象之间客观存在的不严格的数量依存关系。
这一概念表明: (1)相关关系是指现象之间确实存在数量上的相互依存关系。
(2)现象之间数量依存关系的具体关系值不是固定的。
(如农作物的产量与施肥量之间),3、相关关系与函数关系的区别与联系区别:(概念)联系:由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。
在研究相关关系时,为了更好地了解现象的数量规律性,又常常要借助函数关系的形式来表现,以便找到相关关系的一般数量表现形式。
,二、相关关系的种类,各类相关关系的表现形态图,三、相关关系的分析方法:(相关分析。
5、了计量资料单变量的统计描述与统计推断: P.13 例2-1:计算101名成年女子血清总胆固醇的平均指标与变异指标。
P.51 例3-7:比较阿卡波糖胶囊(试验组)与拜糖苹胶囊(对照组)降低糖尿病人的空腹血糖值有无差别。
P.73 例4-2:比较安慰剂组、降血脂新药2.4g组、降血脂新药4.8g组、降血脂新药7.2g组降低患者的低密度脂蛋白含量有无差别。
,2018/11/18,医学统计学,4,在医学研究中常要分析两变量间或多变量间的关系:年龄与血压药物剂量与动物死亡率肺活量与身高、体重、胸围和肩宽等 ,2018/11/18,医学统计学,5,事物间的相关关系 确定性关系 两变量间的函数表达式 圆的周长与半径的关系: C2R路程与速度、时间的关系:LST数学中X与Y的直线函数关系:Ya+bX 非确定性关系 两变量间存在关系,但未精确到可以用函数表达式来描述。
年龄与血脂的关系;身高与体重的关系;体重与体表面积的关系。
,2018/11/18,医学统计学,6,第一节 直线回归,Linear Regression,2018/11/18,医学统计学,7,一、直线回归的概念“回归”。
6、ession 2. Linear correlation 3. Rank correlation4. Curve fitting,102,4,十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。
其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:,历史背景:,102,5,儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。
Galton将这种趋向于种族稳定的现象称之“回归”。
,102,6,目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。
如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。
,102,7,第一节 直线回归,102,8,一、直线回归的概念,目的:研究应变量Y对自变量X的数量依 存关系。
特点:统计关系。
X值和Y。