1、心理统计,授课教师: 陈毅文 中国科学院心理研究所 社会与经济行为研究中心 E-mail: 电话:64861897,本课程考试方式与要求,听课(出勤): 20分 无故缺勤一次扣4分, 请假扣2分期末考试: 80分 (课堂开卷) 概念题: 20分 应用题: 60分,心理统计内容,一、绪论 二、数据的搜集、整理与显示 三、数据分布特征的度量(测度) 四、相关分析 五、概率与概率分布 六、抽样与总体参数的估计 七、假设检验 八、方差分析 九、列联分析 十、回归分析 十一、非参数检验方法,第一章、绪论,1.1 统计与统计学含义 1.2 统计学分类 1.3 统计学与其他学科的关系 1.4 统计学的产生
2、与发展 1.5 几个基本概念,1.1 统计与统计学含义,统计:已被赋予多种含义,不同场合有不同的含义(1)统计工作:统计数据的搜集活动;(2)统计数据:统计活动的结果;(3)统计学:分析统计数据的方法和技术 统计学:是一门搜集、整理和分析统计数据的方法的科学,目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。,统计数据的搜集是取得统计数据的过程,是进行统计推断的基础。如何取得准确、可靠的统计数据是统计学研究的内容之一。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。它是数据搜集与数据分析之间的一个必要环节。统计数据的分析是统计学的核心内容
3、,是通过统计描述和统计推断的方法探索数据内在规律的过程。Statistics:以单数名词出现时表示“统计学”;以复数名词出现时表示“统计数据”或“统计资料”。,单个数据没有多大意义,但通过多次观察或实验得到大量的统计数据,利用统计方法可以探索出其内在数量规律性。例如:新生婴儿的性别比例统计规律是:男:女=107:100掷硬币试验中正反面比例的统计规律是:正面:反面=1:1,1.2 统计学的分类,根据统计方法的构成分为: 描述统计学 推断统计学根据统计方法的研究与应用分为: 理论统计学 应用统计学,描述统计学,描述统计学主要研究如何整理科学实验或调查得来的大量数据,通过图表的形式描述一组数据的全
4、貌,并计算出一些统计特征,具体内容包括: 数据如何分组 如何使用各种统计表和统计图的方法去描述一组数据的分组及分布情况 如何通过一组数据计算一些特征数,简缩数据,进一步显示与描述一组数据的全貌。,表示数据集中情况的特征有: 算术平均数、中数、众数、几何平均数、调和平均数等; 表示数据分散情况的特征有: 平均差、标准差、变异系数、标准分数等 表示事物两种以上性质之间关系情况有: 相关系数 表示数据分布是否对称、偏斜的程度及扁平程度的特征有: 偏度与峰度。,数据的一些统计特征,推断统计学,推断统计学是研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数
5、量特征作出以概率形式表达的推断。具体说,如何从局部的数据估计全局的情况;如何对假设进行检验与估计;如何对影响事物变化的因素进行分析;如何对两种事物或多种事物之间的差异进行比较等。,推断统计的方法有: (1) 记数资料检验方法。包括:比例检验、卡方检验等; (2) 假设检验的各种方法。包括:大样本的检验方法(z检验法);小样本的检验方法(t 检验法);方差分析; 回归分析方法等; (3) 总体特征数(总体参数)的估计方法; (4) 各种非参数的统计方法。,理论统计学:指统计学的数学原理。它主要研究统计学的一般理论和统计方法的数学理论。它是统计学的理论基础。,应用统计学:研究如何应用统计方法去解决
6、实际问题。统计学是分析数据的科学,在自然科学及社会科学研究领域,都需要通过数据分析解决实际问题,统计学的应用几乎扩展到了所有的科学研究领域。如:生物统计学、医疗卫生统计学、农业统计学、工业统计学、经济管理统计学、社会统计学、人口统计学、教育与心理统计学等。,1.3 统计学与其他学科的关系,1.3.1 统计学与数学的关系1.3.2 统计学与其他学科的关系,1.3.1 统计学与数学的关系,统计学与数学有密切联系,又有本质的区别。现代统计学应用到许多数学知识,似乎是数学的一个分支,实际上,数学只是为统计理论和统计方法的发展提供了数学基础,而统计学的重要特征是研究数据。二者的共同之处是都不能独立地直接
7、研究和探索客观现象的规律,而是给各个学科提供一种研究和探索客观规律的数量方法。,区别: (1)数学研究的是抽象的数量规律,而统计学是研究具体的、实际现象的数量规律;数学研究的是没有量纲或单位的抽象的数,而统计学研究的是有具体实物或计量单位的数据。 (2)二者使用的逻辑方法不同。数学是纯粹的演绎,而统计学是演绎与归纳相结合。,1.3.2 统计学与其他学科的关系,统计方法可以帮助其他学科探索学科内在的数量规律性,而对这种数量规律性的解释并进而研究各学科内在的规律,只能由各学科的研究来完成。统计方法仅仅是一种有用的定量分析的工具,它不是万能的,不能解决我们想要解决的所有问题。,1.4 统计学的产生和
8、发展,统计学起源于17世纪中叶,至今有300多年的历史。起初有两个学派。 一、政治算术-社会经济统计产生于17世纪中叶的英国,主要代表人物是威廉配第(William Patty,1623-1687年)和约瀚格郎特(John Graunt,1620-1674年)。,威廉配第-统计学之父,英国数学家,多才多艺学识渊博; 一生有许多发明,最有名的属复印机,1647年获得专利; 最著名的统计著作政治算术,于他死后的1690年出版。政治算术就是用数字表示国情; 马克思在资本论中称配第为政治经济学之父。,该学派通过大量观察的方法,研究并发现了一系列人口统计规律,如: 男婴出生多于女婴,基本是14:13;
9、男性的死亡率高于女性; 新生儿在大城市的死亡率较高; 一般疾病和事故的死亡率较稳定,而传染病的死亡率波动较大等等。19世纪以后出现了保险统计、卫生统计、农业统计、工商统计、物价指数计算方法。此后,人口调查、社会调查、道德统计等也逐步发展起来。政治算术学派为后来的社会经济统计的发展奠定了基础。,二、概率论-数理统计,伽利略,意大利天文学家、物理学家、数学家,16世纪,为解答赌徒们的问题提出了概率论思想; 帕斯卡和费马,法国数学家,17世纪中期,在解决赌博难题中,创立概率论。 贝努里,瑞士数学家,17世纪末创立了贝努里定理,为发现正态概率分布创造了条件。 棣莫弗,数学家,1733年提出正态分布的概
10、率分布和概率的乘法运算法则,推广了贝努里定理,推导出正态曲线方程,后来,几十年后,高斯和拉普拉斯各自独立发现该方程,高斯还首次提出正态分布曲线;误差理论。,泊松,数学家,19世纪初积极推广贝努里定理,提出“大数定理”; 凯特勒,比利时统计学家,首先提出把统计学与概率论相结合,以概率论为理论基础确立统计方法; 韦特斯坦,德国数学家,1867年首次提出“数理统计”一词,后来发展为数理统计学派。 高尔顿,19世纪末期,在生物学、优生学、心理学的研究中努力探索简化数据的途径和方法,提出了中位数、百分位数、四分位差等重要统计量概念; 皮尔逊,高尔顿的学生,在研究人类智力与体力的遗传等问题时,提出了相关和
11、回归的概念,以及相关和回归系数的计算方法。1900年他推导并系统阐明了拟合度检验方法;,格赛特,皮尔逊的学生,建立小样本理论,提出t检验方法;费舍,英国统计学家,论证了t分布理论,最先提出分布理论;提出了随机化概念,建立了点估计与区间估计理论,发展并确立了推断统计理论。斯皮尔曼,英国心理学家,延伸了相关系数的概念,导出等级相关系数的计算方法;1904年提出了因子分析思想,用统计方法处理实验结果。,我不记得那时是几岁,但是我记得是坐在高椅子上吮吸着大拇指,有人告诉我最好停止吮它,不然被吮的大拇指会变小。我把两手的大拇指并排看了很久,它们似乎是一样的,我对自己说:我看不出被吸吮的大拇指比另一个小,
12、我怀疑她是否在骗我,据说费舍是个早熟的孩子 ,在很小的时候就已精通如球面三角之类艰深的学问。他曾对物理科学深感兴趣,1912年自剑桥大学得到天文学的学士学位。,概率论在初期基本上是独立发展的,它与统计学(政治算术)没有太多的联系。到19世纪,用概率论研究社会经济现象的人日益增多。从19世纪中叶到20世纪中叶,概率论的进一步发展为数理统计学的形成和发展奠定了基础。20世纪50年代以后,统计理论、方法和应用进入全面发展的阶段。统计学由于受计算机、信息论等现代科学技术的影响,新的领域层出不穷。如多元统计分析、现代时间序列分析、贝叶斯统计、非参数统计、线性统计模型等。,1.5 几个基本概念,1.5.1
13、随机变量 随机现象:在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。 随机变量:随机现象的各种结果总是可以用一定的数量来表现,而且表现为实验结果数值的不确定性,因而称为变量。这种变量受随机因素的影响,呈随机变化,具有偶然的一面,但也具有规律性的一面。通过大量的实验或观察,这种规律性可以揭示出来。把这种具有变化规律的变量称为随机变量。,1.5.2总体、样本、个体,总体(Population):指具有某种特征的一类事物的全体,又称母体。个体(Element):构成总体的每个基本单元。样本(Sample):从总体中抽取的一部分个体,即总体的一个子集。,1.5.3
14、 次数、频率、百分比、概率,1、次数(Frequency):也叫频数,落在各类别中的数据个数。 2、频率:也叫相对次数或比例,一个总体中各个部分的数量占总体数量的比重。 3、百分比(Percentage):比例乘以100就是百分比或百分数。 4、比率(Ratio):各不同类别的数量的比值。 、概率:某一事件发生的可能性大小的量。,1.5.4 统计量与参数,统计量(Statistic):是样本的函数,只跟样本有关,与总体参数无关。如样本平均数( )、样本标准差(S)、样本相关系数(r)、回归系数(b)等。可以用统计量对总体参数进行估计或进行假设检验。,参数(Parameter):总体参数,指描述
15、一个总体情况的一些统计指标。如总体平均值或期望值,用符号 表示;反映总体分散情况的指标如标准差,用 表示;反映某事物两特性总体之间关系的统计指标为相关系数,用 表示;表示两特性之间数量关系的统计指标是回归系数,用表示。,常用的统计量和对应的参数,第二章、数据的搜集、整理与显示,2.1 数据的计量与类型,2.1.1 数据的计量尺度 (1)类别量表(Nominal Scale) (2)顺序量表(Ordinal Scale) (3)等距量表(Interval Scale) (4)比率量表(Ratio Scale),类别量表:也叫称名尺度或列名尺度,只能按照事物的某种属性对其进行分类或分组。是最粗略,
16、层次最低的计量尺度。如性别(男、女)、学历、企业性质、职业、地区等。由于定类尺度只能区分事物是同类或不同类,因此它具有“和”的数学特性。通常计算每一类别中各元素或个体出现的“频数或频率”来进行分析。,顺序量表:是对事物之间等级差别或顺序差别的一种测度。它不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。如:考试成绩:优、良、中、及格、不及格。教育水平:小学及以下、初中、高中、大学及以上。该尺度具有“和”、“和”的数学特性,但不能进行加、减、乘、除运算。,等距量表:也叫等距尺度或间隔尺度,不仅能将事物分为不同类型并进行排序,而且还可以准确地指出类别之间的差距是多少,表现为数值。如
17、考试成绩百分制;温度等。等距量表具有类别量表和顺序量表的数学特性外,其结果还可以进行“加、减”运算。,比率量表:也叫比率尺度,表现为数值,它具有上述三种尺度的全部特性外,还可以计算两个测度值之间的比值。有一个绝对“零点”。如长度米、重量千克、收入元等。等距量表中没有绝对“零点”。“0”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。如“0”度表示一种温度水平,并不是没有温度。比率量表中“0”表示“没有”或“不存在”。等距量表只能进行加、减运算,而比率量表可进行加、减、乘、除运算。,四种量表的比较,2.1.2 数据的类型与分析方法,统计数据是采用某种计量尺度对事物进行计量的结果。采用不
18、同的计量尺度会得到不同类型的统计数据。,不同类型的数据,类别数据:表现为类别,但不区分顺序,由类别量表计量形成 顺序数据:表现为类别,但有顺序,由顺序量表计量形成;等距数据:表现为数值,可进行加、减,由定距尺度计量形成; 比率数据:表现为数值,可进行加、减、乘、除,对应于定比尺度;定性数据(Qulitative Data):类别数据、顺序数据定量数据(Quantitative Data):等距数据、比率数据,不同类型的数据采用不同的统计方法,类别数据:计算各组的频数、频率,众数、列联分析、2检验等。 顺序数据:中数(中位数)、四分位差、等级相关系数、非参数分析。 等距、比率数据:计算各种统计量
19、、参数估计、检验。适用于低层次测量数据的统计方法,也适用于较高层次的测量数据。,变量(Variable):说明事物某种特征的概念,它的具体表现为变量值,类别变量(Nominal Variable):由定类数据记录, 如性别(男、女);顺序变量(Ordinal Variable):由定序数据 记录,如产品等级(一、二、三);数值变量(Numerical Variable):由数量数据记录,如年龄、时间、产量等,2.2 统计数据的来源,1、直接来源 (1)调查 普查:为某一特定的目的组织的一次性全面调查。如人口普查、工业普查等;特点是:涉及面广,但需要耗费大量的人力、物力、财力,时间较长;准确、规
20、范化程度高。,抽样调查:从调查对象的总体中随机抽取一部分单位作为样本进行调查,由样本的调查结果来推断总体数量特征的一种非全面调查。特点是:经济、时效性强、适应面广、准确性较高。调查方法有:访问调查、邮寄调查、电话调查、电脑辅助调查、座谈会、个别深度访问等。,(2)观察与实验 观察法: 调查人员边观察边记录以搜集信息的方法; 试验法:在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。 室内实验法:如广告效果测试、广告认知; 室外市场实验法:如消费者需求调查。,2、间接来源(二手数据)不是自己亲自调查的,是别人的数据、公开出版或报道的数据,如:统计年鉴;报刊、杂志
21、、图书、广播、电视传媒中的各种数据资料。,2.3 统计数据的整理与显示,通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。整理可以大大简化数据,更容易理解和分析。,数据整理: 数据的预处理 数据的审核与筛选-检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。 数据的排序-便于发现数据特征或趋势,也有助于检查错误 分类或分组 汇总,2.3.1 品质数据的整理与显示,对品质数据主要做分类整理 对数值型数据主要做分组整理1、类别数据的整理与显示 (1)整理 不仅列出事物的类别,还要计算出每一类别的频数、频率或比例、比率 (2)显示 选
22、择适当的图形进行显示,以便对数据及其特征有一个初步的了解,频数分布:把各个类别及其相应的频数全部列出来就是频数分布或次数分布(Frequency distribution),例2.1 某城市居民关注广告类型的频率分布,条形图(Bar chart) 用宽度相同的条形的高度或长短来表示数据变动的图形。,图2.1 某城市居民关注不同类型广告的人数分布,圆形图(Pie chart):也叫饼图用圆形及圆内扇形面积来表示数值的大小。主要用于表示总体中各组成部分所占的比例。,2、顺序数据的整理与显示,类别数据的整理和显示的内容都适用于顺序数据。除此之外顺序数据还可以计算累积频数和累积频率,图形显示用到累积频
23、数分布图和环形图。(1)累积频数(Cumulative frequencies):将各类别的频数逐级累加起来。有两种方法: 向上累积:从类别顺序开始一方向最后一方累加频数; 向下累积:从类别顺序最后一方向开始一方累加频数 (2)累积频率或百分比(Cumulative percentages),例2.2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”(1)非常不满意; (2)不满意; (3)一般;(4)满意;(5)非常满意。,甲城市家庭对住房状况的评价,图2.3 向上累积分布图,图2.4 向下累积分布图,2.3
24、.2 数值型数据的整理与显示,一、数据的分组数值型数据包括等距数据和比率数据,在整理时通常要进行分组。然后再计算出各组中出现的次数或频数。分组方法有单变量值分组和组距分组。1、单变量值分组把每一个变量值作为一组,它只适合于离散变量且变量值较少的情况。,例2.3 某生产车间50名工人日加工零件数(个),如下表:117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 1
25、20 123 127 135 137 114 120 128 124 115 139 128 124 121,采用单变量值分组形成的频数分布表,2、组距分组,在连续变量或变量值较多的情况下,可采用组距分组。它将全部变量值依次分为若干个区间,并将这个区间的变量值作为一组。下限(Low limit):一个组的最小值 上限(Upper limit):一个组的最大值,组距分组的步骤: 第一步:确定组数组数过多过少都不合适。太少,数据分布过于集中;太多,数据分布过于分散。都不利于观察数据的分布情况。在实际应用中可按Strurges提出的经验公式来确定k,k=1+lgn/lg2, n为数据个数。如:n=5
26、0 , k=1+lg50/lg2=7 第二步:确定组距组距是一个组的上限与下限之差。组距=(最大值-最小值)/组数上例中,组距=(139-107)/7=4.6,为便于计算组距取5。 第三步:根据分组整理成频数分布表,某车间50名工人日加工零件数分组,组距分组的步骤 (P 32),1. 求全距 RMaxMin 2. 定组数 组数过多过少都不合适 经验公式 组数 k=1.87(N1)0.4, N为数据个数 3. 定组距 组距是一个组的上限与下限之差 组距=(最大值-最小值)/组数,4. 写出组限 建议用精确组限 5. 求组中值 组中值(精确上限精确下限)2 6. 归类划记 7. 登记次数,4.4.
27、2 定量数据的图表展示,直方图 histogram,次数多边形,累加直方图 cumulative histogram (P42),数值型数据的图示 (一)分组数据:直方图和折线图 直方图(Histogram): 用矩形的宽度和高度来表示频数分布的图形。 直方图与条形图的区别: 条形图的长度表示各类别的频数,宽度是固定的;直方图用面积表示各组频数的多少,高度表示每一组的频数或百分比,宽度表示各组的组距,高度和宽度都有意义。直方图通常是连续排列,而条形图是分开排列。 折线图: 频数多边形图(Frequency polygon) 把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉, 就是折线图。
28、,(2)未分组数据:茎叶图和箱线图,茎叶图(Stem-and-leaf display) :可以对未分组的原始数据显示其分布特征。它既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。从图中可以看出,分布是否对称,数据是否集中,是否有极端值等等。,Stem-and-Leaf Plot,Age (years) Stem-and-Leaf PlotFrequency Stem & Leaf2.00 2 . &10.00 2 . 8936.00 3 . 00122334485.00 3 . 555556677788888899999120.00 4
29、 . 000001111111222223333334444444163.00 4 . 5555555666666666777777788888889999999999144.00 5 . 0000000011111111222222223333334444444132.00 5 . 55555555666677777788888889999999147.00 6 . 0000000011112222222223333333444444444140.00 6 . 5555555666666666777777788888899999112.00 7 . 000001111111122222223
30、33344472.00 7 . 55555666667778899930.00 8 . 112234&14.00 8 . 56&Stem width: 10Each leaf: 4 case(s)& denotes fractional leaves.,箱线图(Boxplot),箱线图是有一组数据的5个特征值绘制而成的,由一个箱子和两条线段组成。5个特征值分别是: 最大值(max) 最小值(min) 中位数(Me) 下四分位(QL) 上四分位(QU),最小值 下四分位 中位数 上四分位 最大值,多变量数据: 雷达图(radar chart) 例2.4 研究某条河流的污染程度,环保局分别在上游、
31、中游和下游设立取样点,化验五项污染指标。将各指标用雷达图表示出来,并分析该河流的主要污染源。,第三章 数据分布特征的测度,3.1 集中趋势的度量 3.2 离中趋势(离散程度)的度量 3.3 偏态与峰度的度量,数据的分布特征可以从三个方面进行侧度和描述: 集中趋势:位置的度量、数据集中的位置; 离散程度:反映数据远离其中心值的趋势; 偏态和峰度:反映数据分布的形状,3.1 集中趋势的测度,指一组数据向某一中心值靠拢的倾向。测度集中趋势就是要寻找数据一般水平的代表值或中心值。 众数(Mode) 中数(Median) 平均数(均值)(Mean) 简单平均数(Simple mean) 加权平均数(We
32、ighted mean) 调和平均数(Harmonic mean) 几何平均数(Geometric mean),3.1.1 众数( mode)众数是一组数据中出现次数最多的变量值。用Mo表示。主要用于测度类别数据的集中趋势,也适用于顺序、等距和比率数据的集中趋势的测度值。众数概念是1894年皮尔逊提出的。(1)类别、顺序数据求众数,Mo=Coke Classic,(2)数值型数据求众数,当数据未分组时,出现次数最多的变量值即为众数。 如2、3、5、3、4、3、6的众数为3 计算众数的皮尔逊经验法 Mo3Mdn2M 如果次数分布最多的有两个数,而且两个数是相邻的,那么一般取两者的平均值作为众数;
33、如果这两个数不相邻,那么一般需要报告两个众数,而且认为该组数据是bimodal双峰分布的,(2)数值型数据求众数,当数据经过分组整理后,众数的数值与其相邻的频数分布有一定关系。,Mo,其中:L为众数组的下限值;i为中数组的组距;f-1为前一组的频数;f+1为后一组的频数;f为众数组的频数。,f,f+1,f-1,L,众数是一个位置代表值,它不受数据中极端值影响。,众数的用途,快速粗略寻求一组数据的代表值 次数分布中有两极端的数目(一般用中数,有时用众数) 用平均数和众数之差作为次数分布是否偏态的指标,3.1.2 中位数(median Md或Mdn ),中位数是一组数据中按从小到大排序后,处于中间
34、位置上的变量值。它将全部数据分成两部分,每个部分各包含50%的数据。中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。也适用于数值型数据。但不适用于定类数据。,将全部数据排序后,如果项数是奇数,则正中央的那一项即为中位数;如果项数是偶数,则正中央的那两项的平均值即为中位数。例 3.1 (1)32,42, 46,46,54Md=46(2)48,75,80,84,88,90,95,100Md=(84+88/2=86,课堂练习,求出下列两组数据的众数和中数: (1) 2, 15, 8, 3, 4, 1, 3, 9, 4, 3, 5(2)2, 3, 4, 4, 5, 6, 7, 9, 11,
35、21,分位数,(1)百分位数(Percentile):第m百分位是这样一个值,它使得至少有m%的数据小于或等于这个值,且至少有(100-m)%的数据项大于或等于这个值。 (2)四分位数(Quartile):将数据划分为4部分,每部分各占25%的数据项,这种划分的临界点即为四分位数。有三个四分位数分别为:QL,Me,QU(3) 十分位数(Decile):将数据划分为10个部分,每部分占十分之一的数据项。其划分的临界点为十分位数。,25%,25%,25%,25%,QL Me QU,计算第m百分位步骤: 第一步:从小到大排列原始数据; 第二步:计算指数ii=(m/100)n, n为项数,i为所求的第
36、m百分位的位置。 第三步:若i不是整数,将i向上取整;若i是整数,则第m百分位数是第i项与第(i+1)项数据的平均值。,例3.2 有12个职员薪金的数据,求第85和第50百分位数。 解:(1)将12个数据从小到大排序如下: 2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 (2) i=(m/100)n=(85/100) 12=10.2(3) 由于i=10.2不是整数, 向上取整,所以第85百分位数对应的是第11项, 其值为2630。同理,计算第50百分位(中位数)。i=(50/100) 12=6,是整数,第50百分位数是第6
37、项和第7项的平均值,即 (2390+2420)/2=2405。,百分位数分数和百分等级分数,百分位分数:次数分布中对应于某个特定百分点的原始分数。第m个百分点就是这样一个点,次数分布中有m%的数据小于等于这个数,有(100m)%的数据大于等于这个数。记为Pm百分等级分数:次数分布中低于某个原始分数的次数百分比,用PR表示。百分位分数是先确定某个百分点m,然后去求相应的百分位分数Pm 。而求百分等级分数正好相反,事先知道次数分布中的一个原始分数,再求该分数在分布中所处的相对位置。,某市招干考试分数分布表,课堂练习: 1、(1) m=50, Pm=?(2) m=75, Pm=? 2、(1) x=6
38、3, PR=?(2) x=52, PR=?,3.1.3 均值,均值(Mean)也称算术平均数(Arithmetic mean),是全部数据的算术平均。主要适用于定距数据和定比数据,但不适用于定类、定序数据。 1、简单平均(Simple mean):未分组的原始数据设一组数据为X1,X2,,XN,算术平均值的优点: 反应灵敏; 确定严密; 简明易解; 计算简单; 符合代数方法进一步演算; 较少受抽样变动的影响;算术平均数的缺点: 易受极端值的影响; 若出现模糊不清的数据时,无法计算算术平均数;,适用算术平均数的条件要求: 数据必须是同质的,即同一种测量工具所测量的某一特质; 数据取值必须明确;
39、数据离散不能太大。,2、加权均值(Weighted mean):用于分组数据,均值的两个性质: (1)各变量值与其均值离差之和等于零。即 (2)各变量值与其均值的离差平方和最小,即,3、调和平均数:定比数据 总量一定时,求平均值。如路程一定,速度不同,求平均速度。,例3.2 上行速度为30公里/小时,下行速度为45公里/小时,求全程的平均速度?,4、几何平均数(Geometric mean):定比数据 N个变量值相乘积的N次方根。,几何平均数用于计算平均发展速度、平均增长率、学习记忆的平均进步率、学校经费平均增加率、平均人口出生率等等。 例3.3 三种股票,1996-1999年的收益率分别为4
40、.5%, 2.0%, 3.5%, 5.4%, 计算四年内的平均年收益率。 解:,平均年收益率为 -1=103.84%-100%=3.84%,若涉及到的数据为, X0为初始(基数)值, N为年份数, XN为最后年份的数值, 则平均年增长率为,例3.4 1949年中国人口为4.7亿,1994年为12亿, 求人口的年增长率。,年增长率为2.10483%,3.1.4 众数、中数和均值的比较 1. 平均数、中数和众数的关系 p68,在一个正态分布中,三者相等 在正偏态分布中,M Md Mo 在负偏态分布中,M Md Mo 一般偏态情况下,Md离M较近,而离Mo较远, 皮尔逊经验关系:,2、众数、中数、均
41、值的特点与应用场合,众数是一组数据分布的峰值所对应的随机变量的值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性。它主要用于定类数据的集中趋势度量; 中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响。主要适合于定序数据的集中趋势的测度值; 均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响,对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。,3.2 离中趋势(离散程度)的度量,数据离中趋势是表示数据分散程度的一组统计量, 反映的是各变量值远离其中心值的程度。
42、表示数据离中趋势的测度有: 全距 四分位差 方差 标准差 平均差 变异系数(离散系数):相对离散程度,3.2.1 全距(range),全距(R):观察值中最大值与最小值之差。 R=Max-Min,3.2.2 四分位差(Quartile deviation),四分位差是上四分位数与下四分位数之差的一半,用QD表示,QD=(QU-QL)/2四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;反之,越分散。四分位差的大小在一定程度上说明了中位数对一组数据的代表程度。四分位差适用于测度定序数据的离散程度。,课堂练习,3.2.3 平均差,平均差(Average deviation)
43、:也称平均离差,是各变量值与其均值离差绝对值的平均数,用AD表示。计算公式为:,平均差的数学性质不是最优的,在实际应用中应用较少。,3.2.4 方差(Variance)和 标准差(Standard deviation),方差是各变量值与其均值离差平方和的平均数,是计算数值型数据离散程度的最主要方法。离差:也叫离均差,离差平方和(SS):,1、总体方差和标准差 方差(2):,离差的平方求平均,平方的平均减去平均的平方,标准差:方差的平方根,例3.3 未分组数据求方差和标准差:,2=10/6 =1.67 , =1.29,用原始数据直接求方差和标准差:,上例中,课堂练习 分别求下列各组数据的方差、标
44、准差 (1)15,16,13,11,12,10,11 (2)5,6,3,1,2,0,1 (3)10,12,6,2,4,0,2,方差、标准差的性质: (1)若y=x+c , x和y是随机变量,c为常数,则 (2)若y=cx, c为常数,则,2、样本方差与标准差,样本方差为什么要除以(n1)的另一种解释:与多元函数自由度(degrees of freedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算样本方差时, n个变量值本身有n个自由度。但受到样本均数的限制,n个“离均差”之和为
45、零,所以,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,课堂练习 下列数据是从某个总体中抽取的一个随机样本,求该样本数据的方差和标准差。 10,8,8,6,7,5,9,5,4,6,样本方差与总体方差的区别: (1)在计算上,总体方差是用数据个数或总频数去除离差平方和,而样本方差则用样本数据个数或总频数减一去除离差平方和; (2)样本方差是统计量,用S2表示;总体方差是总体参数,用2表示。 (3)当n很大时,S2与2相差很小,前者是后者的无偏估计。,3、方差与标准差的意义,方差与标准差是表示一组数据离散程度的最好的指标。
46、其值越大,说明离散程度大,其值小说明数据比较集中。具有以下优点: (1)反应灵敏。 (2)由计算公式严格确定; (3)容易计算; (4)适合代数运算; (5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定; (6)简单明了; (7)具有可加性。可以把总变异分解为不同来源的变异。,(8)各变量值对均值的方差小于对任意数的方差。即: 2D2,4、由各小组的标准差、方差求总标准差、方差,例3.5 某年级有四个班,各班某科成绩如下:一班35人,平均成绩80分,标准差8分;二班40人,平均成绩75分,标准差10分;三班40人,平均成绩78分,标准差9分;四班37人,平均成绩70分,标准差10分。求
47、四个班的平均成绩和标准差。,3.2.5 标准化值(Standard score) 标准分数, Z分数.,标准分数可以给出各数值在一组数据中的相对位置。,例某班平均成绩为90分,标准差为3分,甲生得94.2分,乙生得89.1分,求甲乙二学生的Z分数各是多少? 解:Z甲=(94.2-90)/3=1.4Z乙=(89.1-90)/3=-0.3标准分数的平均值为0,标准差为1。 Z分数的应用: (1)比较分属性质不同的观测值在各自数据分布中相对位置的高低。 如:某人 Z身高1.70=0.5, Z体重65=1.2, 则该人在某团体中身高稍偏高,而体重更偏重些。 (2) 当已知各不同质的观测值的次数分布为正
48、态时,可用Z分数求不同的观测值的总和或平均值,以表明在总体中的位置。,表3.1 利用Z分数求总和,(3)表示标准测验分数 经过标准化的测验,如果其常模分数分布接近正态分布,常常要转换成正态标准分数。Z=aZ+b Z为正态标准分数,Z=(X-X)/, a,b为常数, 为测验常模的标准差。 如:(WAIS)韦氏常人智力量表:IQ=15Z+100;比奈-西蒙智力测验:Z=16Z+100;普通分类测验(AGCT) Z=20Z+100,(4)异常值(极端值)的取舍 一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。如上下三个标准差内包含99.73%的数据个数。所以,如果有一个数据的取
49、值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值加以舍弃。,3.2.6 变异系数(Coefficient of variation),也称离散系数,标准差系数,是一组数据的标准差与其相应的均值之比。,变异系数指出了标准差相对于平均值的大小,用于比较不同总体或样本数据的离散程度。 (1)同一团体不同测量的变异的比较,如相同班级不同科目的变异的比较; (2)不同团体同一测量的变异的比较,如不同年级同一科目变异大小的比较。,例3.6 已知某小学一年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大? 解:CV体重=3.7/25100%=14.8%CV身高=6.2/110 100%=5.64%, 所以, 体重的离散程度比身高的离散程度大。 例3.7 通过同一个测验,一年级学生的平均分数为60分,标准差为4.02分,五年级学生的平均分数为80分,标准差为6.04分,问这两个年级的测验分数中哪一个分散程度大。 解:CV一年级=4.02/60 100%=6.7%,CV五年级=6.04/80 100%=7.55%,所以,五年级的测验分数的分散程度大。,