1、教育研究方法,基本统计概念 Basic S 13617960391,1,授课内容:基本统计概念 + 讨论,正态分布 (normal distribution) 方差 (variance)、标准差 (standard error) Z 分数 (Z- score) 偏态(skewed ) 参数(parameter)与统计量(statistic) 描述性统计 (descriptive statistics) - 7. 零相关 (zero correlation) 8. 正相关 (positive correlation) 9. 标准分数(standard score) 或 Z 分数 (Z- sco
2、re) 10. 第一类型错误 (Type I error) 11. 第二类型错误 (Type II error),2,统计概念的重要性:授课计划,前几周:概况、主要研究方法本周和下周:基本统计概念、数据分析最后几周:教育实验设计、案例评述、报告- 承上启下完整、深入学习的基础有一定难度,3,基本统计概念:正态分布,正态分布 (normal distribution),又名高斯分布(Gaussian distribution), 统计学最重要的基础概念,运用最广泛的分布。抽样和抽样统计 Z 分数、Z 检验、方差分析、回归分析等近似描述很多现象的统计规律:“中间大,两头小”(大样本) 人们的身高、
3、体重、考试成绩、智商 各种各样的测量误差 运用:估计频数分布、制定参考值范围、质量控制,4,5,6,2006年四川省普通高考文科语文,7,8,9,正态分布曲线,正态分布由两个参数决定:平均值和方差N(, 2 )其概率密度函数曲线f(x)的特点:对称性:平均值为对称线以横轴为渐近线方差越小,分布越集中在均值附近,图形越陡峭拐点/反弯点(inflection point)在离平均值的距离 为一个标准差的地方,10,方差、标准差,方差(variance):对随机变量离散性质的反映和度量每一个体(观测值)偏离总体平均值的程度 方差的计算:各数据与平均数的差的平方的平均值标准差 standard dev
4、iation (SD):方差的平方根,11,12,方差越小, 图形 越陡峭,13,正态分布:钟形曲线,不是抛物线,14,标准正态分布,15,16,(教材p.348):正态分布函数曲线下,68.3%的面积在平均值左右的1个标准差( )范围內 95.4%的面积在平均值左右的2个标准差(2 )范围內 99.74%的面积在平均值左右的 3个标准差(3 )范围內 -“68-95-99.7法则”或“经验法则”99.994%的面积在平均值左右的4个标准差(4 )范围內,17,“小概率事件”,通常指发生的概率小于5%的事件(2 之外) 在一次试验中该事件是几乎不可能发生的。 我们也有5%的犯错误的可能:例如:
5、假设检验的第一类型错误,18,标准正态分布 (Standard normal distribution),什么是标准正态分布? = 0 , 2 = 1,即 N(0,1)Z分数公式z=(x-)/原始分数和总体平均值之间的距离,以标准差为单位计算。反映个体在团体中相对位置,19,Z 转换,-3 -2 -1 0 1 2 3,20,问题:三门功课中,乙同学哪门功课的排名最好?甲同学呢?,21,计算标准分数,22,计算标准分数,23,练习:刘小兰哪门成绩比较好?,上学期期末考试,语文全班平均分为73分,方差为9分,刘小兰得了78分;数学全班平均分为80分,方差为4分,刘小兰得了83分。Z(语文)=(78
6、-73)/3=1.67Z(数学)=(83-80)/2=1.50 小兰语文的班级排名比数学好,24,练习,某市抽样调查,考生的英语成绩(按百分制计算,近似正态分布),平均成绩为72 分,96分以上的考生占考生总数的2.3%,试求考生的英语成绩在60分到84分之间的概率. (大致估算)2 近似 = (96 -72) = 24 约 为 12 60 84 之间有68.3% 的学生 / 概率,25,26,27,标准分数的其他形式,T分数T = 10 * Z + 50 (1939年,美国麦柯尔提出)美国大学入学考试分数(如SAT)CEEB = 100 * Z + 500 美国韦克斯勒(Wechsler)智
7、力测验的智商 分量表智商:DIQ = 3 * Z + 10总量表智商:DIQ = 15 * Z + 100美国斯坦福-比纳智力(Stanford-Binet)测验的智商DIQ = 15 * Z + 100 (2003年以前: DIQ=16*Z + 100),28,29,思考,高考成绩为何要转化为标准分?标准分与原始分各有何优劣之处?,30,高考标准分数,原始分制度的主要缺点: (教育测量学的观点)不能反映考生成绩在团体中的位置(尤其对选拔性考试而言)各科成绩不能直接比较(命题难度不同,试卷的区分度也不同)各科原始分相加不合理 (难度不一;每科实际平均分在总分中比例与预期不同),31,高考标准分
8、数,报告标准分、百分等级: 各科,总分(改称综合分)各科标准分及百分等级获得方法: 1.该科原始分在全省考生属类别团体(如理工类、文史类)中排序 2.每一个原始分以下的考生占团体考生总数的百分比-百分等级 3.由每个原始分的百分等级查正态分布表,找出对应的正态分数 4.按正态分数给出标准分:标准分 = 500 + 100正态分数 标准分在分之间,32,高考标准分数,综合分的标准分和百分等级:把考生各科的标准分相加 按其和的大小从高到低排序 确定其百分等级、标准分 【例】高考成绩(标准分制度)通知单(理工类)考号 姓名 成绩 综合分 语文 数学 外语 物理 化学 * * 标准分 566 600
9、650 485 553 562百分等级 74.5 84.1 93.3 44 70.2 73.2,33,标准分的缺点?,标准分2000年前很热门1988年开始,陆续实行于 广东、海南、河南、陕西、广西、山东、福建广东 (1988年- 2006年) 海南 云南(2011年 - ),34,标准分的缺点,一旦出现改分错误,纠正很麻烦 不利于偏科的同学 考生投机选科目报考对于有些 3+X考生不利广东成绩较好的学生报文科的更多 只知道排名,不知道具体答卷情况,35,偏态(skewed) 分布,负偏态分布(左偏)长尾向左延伸,分布较多于右侧e.g. 容易的考试的学生成绩正偏态分布(右偏)长尾向右侧延伸,分布
10、较多于左侧e.g. 收入、难度大的考试的学生成绩,36,37,skew is -0.43(251 trading days),38,描述性统计 (descriptive statistics),mode (众数) 具有最大频率的随机变量的取值average (平均数)median (中数) 累积概率50%时对应的观测值在正态分布中,mode=median=expectation 描述性统计 (descriptive statistics)推论性统计 (inferential statistics),39,总体、个体、样本,研究举例: 受过良好早期教育儿童的智商是否高于一般水平 总体: 缩小范围
11、 总体:“中国大城市现年6-9岁的儿童” 个体: 构成总体的每个基本单元 样本:从总体中抽取出的一部分个体,目的在于为我们所实验或观察,以达到“从局部推断总体”。,40,参数(parameters)和统计量(statistics),参数 总体, 希腊字母表示例如:江西成年男子的真实的平均身高吉安市成人收入的中数(median)统计量 statistic 样本例如:江西随机抽样1000名成年男子的平均身高;随机抽样1000个吉安市成人的收入的中数统计的目的: 用样本统计量去估计或推测总体参数的大小。 平均数: 样本平均数(用X表示) 总体平均数(用表示) 方差: 样本方差(用S2表示) 总体方差
12、(用2表示) 公式的区别: 样本方差 vs. 总体方差分母:(n-1) vs. N,41,抽样误差 (Sampling error),抽样误差 ( sampling error)vs.样本偏差 (sampling bias)中心极限定理( Central Limit Theorem ):概率论第二大定理 当样本n足够大时,样本的平均值呈正态分布。标准误(Standard Error) :Standard Deviation of sample mean = 标准差/ 根号n,42,43,概率论第一大定理,大数定理( the law of large numbers)在试验不变的条件下,重复试验
13、多次,随机事件的频率近似于它的概率。,44,变量 variable,变量:总体的一个特征(属性)的数量化对应着一个 变量总体特征往住有多个,一个总体可以对应多个随机变量因变量自变量,45,变量(variable)的数值类型,分类变量( Categorical Variable or Nominal Variable )例如:“性别”、“民族”、“考试及格与否” dummy variable 顺序变量 ( Ordinal Variable )例如:“喜好程度”、“文化程度”数值型变量(Quantitative Variable or Interval Variable)例如:分数,年龄,工资,智
14、商,46,47,第一类型错误(Type I error),例:在发电厂附近长大对儿童的智力的影响 H0: 发电厂对儿童智商没有影响,即=100 H1: 不等于100。韦克斯勒(Wechsler) DIQ = 15 * Z + 100 斯坦福-比纳智力(Stanford-Binet) DIQ = 16 * Z + 100 Type I error: 假如事实是电厂对智商的没有影响,而该研究的结论是推翻H0。 设定 (level of significance) 1. =0.01的意义2. 把 =0.01 改设为 =0.05,第一类型错误的概率是增加了还是减少了?,48,第二类型错误(Type I
15、I error),当H0为假时,接受H0. 假如事实是生活在电厂对儿童的智力有影响,而该研究的结论是不推翻H0。,49,第一类型错误(false positive),类似“crying wolf” - “false alam”“狼来了” - “错误的警报”H0: 没有狼- “未能报警”(failing to raise an alarm) 第二类型错误(false negative),50,第一、二类型错误的危害,H0:产品是合格的NASA在挑选电子配件是应该着重避免哪类错误? NASA(The National Aeronautics and Space Administration )避免
16、第二类型错误H0:嫌疑人是无罪的在法庭上应更注意避免哪类错误?避免第一类型错误 (注重人权),51,第一、二类型错误的危害,医学上 H0:被测是健康的 H0:被测无艾滋等血液传染病献血者 vs. 待确诊的人H0:被测无乳腺癌全球,美国出错率高 荷兰等最低 :审查两次, 设定的更低,52,第一、二类型错误的危害,2012/ 5/17 纽约时报医学报告(前列腺癌)H0:被测是健康的 (无前列腺癌的隐患或病症)至多1/3000 获救; 1/3000 致死,43/1000 人 (1/23)受严重损害教育上H0:学生智力正常,53,第一、第二类型错误的避免,n(样本数)不变,跷跷板的关系两类错误都减小n
17、 增大判断题:“抽样统计时,样本越大越好。”,54,55,Alternative hypothesis 备择假设,方向性(directional)/单侧(one-tailed)非方向性(nondirectional)/双侧(two- tailed),56,维生素B6的额外摄入是否对少儿智力的发育有显著影响,(1)该研究的备择假设H1(alternative hypothesis)是“维生素B6的摄入对少儿智力发育有显著影响”。 (2)该研究要验证的假设是非方向性假设(non-directional hypothesis)。 (3)该研究的自变量(independent variable)是“是
18、否额外摄入维生素B6”,因变量(dependent variable)是“儿童的智力发育”。,57,练习:教室门的最低高度?,学生的平均身高为175厘米, 方差为36平方厘米,教室门的高度应不低于99%的学生的身高。解答:z=(x-175)/6 = 2.33 ( 查表:单侧值)x= 175+14.0x=189 (厘米)车门最低为189厘米,58,59,60,抽样误差 (Sampling error),抽样误差 ( sampling error)vs.样本偏差 (sampling bias)中心极限定理( Central Limit Theorem ):概率论第二大定理 当样本n足够大时,样本的
19、平均值呈正态分布。标准误(Standard Error) :Standard Deviation of sample mean = 标准差/ 根号n,61,平均值的Z 检验,62,Z检验(Z test):举例,假设在江西某地区, 三年级语文成绩的平均分是100,标准差是12。该地区有一所学校有55名三年级学生,他们的平均分是96。问该小学的平均分是否显著地低于该地区的平均值?( =0.05) - 随机在该地区挑55个三年级学生,他们的平均成绩高于96分的概率 Z= (96-100)/(12/sqrt55)=-2.47 距离母体平均值2.47 个标准差 ,大于1.65 (单边检验)讨论: if平
20、均值99, n=900, then Z= -2.5 如果样本空间很大,与母体平均值极小的差别也会被证实有显著的统计意义 (highly statistically significant).,【例】难产儿出生体重n=35, =3.42, S =0.40, 一般婴儿出生体重0=3.30(大规模调查获得), 问相同否?,解:1.建立假设、确定检验水准H0: = 0 (零假设,无效假设,null hypothesis)H1:(备择假设,alternative hypothesis,)双侧检验,检验水准:=0.052.计算检验统计量v=n-1=35-1=34 t=(3.42-3.30)/(S/sqrt
21、(n)= 1.773.查相应界值表,确定P值,下结论查附表1,t*= 2.032, t 0.05, 按=0.05标准,不拒绝H0,两者的差别无统计学意义,练习,刘老师每年教完统计后都会用同样的试卷进行测试。以往测试的平均分是81分。今年在教学中加大练习量后,测试成绩为83分,学生人数为25人。问 (1)今年的分数是否比往年显著高了? H0:(2)如果有了更多数据后,拒绝了H0, 有可能犯第一类型错误吗?有可能犯第二类型错误吗?,65,X 2 检验(chi-square test)卡方检验,临界值与有关 ( = 0.05; = 0.01; = 0.001) 临界值与自由度 v =(n1 1) * (n2 1) 有关,66,