1、统 计 学,第一章 绪论,1、统计学:关于数据资料搜集、整理、分析、推断的理论和方法。(复数) 2、统计工作:对数据资料搜集、整理、分析、推断的过程。(单数) 3、统计资料:各种数据资料的总称。(单数),一、统计(Statistics)的含义,理论与实践的关系,第一节 统计的特点及分科,统计实践 活动,对现象的数量进行搜集、整理和分析的活动过程,统计的含义之一,统计学第一章 绪论,二、统计学的特点,1、数量性 2、总体性 3、差异性 4. 随机性,三、统计学的分类理论统计学和应用统计学统计学描述统计学和推断统计学,统计学的数学原理,研究应用于某特定领域统计方法,数据资料的整理、显示以及概括统计
2、规律,用样本数据推算总体数据,描述统计 (descriptive statistics),内容 搜集数据 整理数据 展示数据 描述性分析目的 描述数据特征 找出数据的基本规律,推断统计 (inferential statistics),内容 参数估计 假设检验 目的 对总体特征作出推断,统计的应用领域,统计的应用领域,actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demograp
3、hy (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划) engineering (工程) epidemiology (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human geneti
4、cs (人类遗传学),统计的应用领域,hydrology (水文学) Industry (工业) linguistics (语言学) literature (文学) manpower planning (劳动力计划) management science (管理科学) marketing (市场营销学) medical diagnosis (医学诊断) meteorology (气象学) military science (军事科学) nuclear material safeguards (核材料安全管理) ophthalmology (眼科学) pharmaceutics (制药学) ph
5、ysics (物理学) political science (政治学) psychology (心理学) psychophysics (心理物理学) quality control (质量控制) religious studies (宗教研究) sociology (社会学) survey sampling (调查抽样) taxonomy (分类学) weather modification (气象改善),四、统计学与其它学科的关系,1、统计学与数学的关系(1)统计学研究的量是具体的量,而数学研究的量 是抽象的量。 (2)统计学运用归纳推理,而数学运用演绎推理。2、统计学与计算机的关系计算机是
6、统计数据处理的工具。,第二节 统计学的基本概念,总体与总体单位标志和变量指标及指标体系样本及统计推断,统计学的基本概念,一、总体与总体单位,统计总体(Population)就是根据一定目的确定的所要研究对象的全体 。 总体单位是组成总体的个别单位。 总体中的总体单位数称为总体容量(Population size) 。用N表示。同质性 差异性大量性有限总体:总体单位数目有限无限总体:总体单位数目无限,总体的特点,总体的分类,总体、总体单位,总体、总体单位,总体或总体单位的区分不是固定的,在一定条件下可以相互转化。,统计学第一章 绪论,二、标志和变量,(一)标志是反映总体单位特征的名称。 1、标志
7、的分类 品质标志:不能用数量表示数量标志:用数量表示不变标志:标志表现相同可变标志:标志表现不同,标志,标志表现,总体单位标志,不变标志决定总体的同质性,变异标志决定总体的差异性,标志和变量,统计学第一章 绪论,总体单位标志,不变标志决定总体的同质性,变异标志决定总体的差异性,标志和变量,统计学第一章 绪论,2.统计测量尺度的种类,统计学第一章 绪论,定类尺度,按现象性质差异进行的辨别与区分。测量结果形成定类变量或定类指标。,定类变量或指标确切的值是以文字表述的,可以用数值标识,但仅起标签作用。,定类变量或指标的各类别间是平等的,没有高低、大小、优劣之分。,性别、种族、运动项目等等,例如:,定
8、序尺度,按现象顺序差异进行的辨别与区分。测量结果形成定序变量或定序指标。,定序变量或指标确切的值是以文字表述的,也可以用数值标识,也仅起标签作用。,定序变量或指标各类别间有高低优劣之分,不能随意排列。,定距尺度,按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量或定距指标。,定距变量或指标的值以数字表述,有计量单位,可以进行加减运算。,定距变量或指标各类别间自然有大小之分,但没有绝对的零点,不能乘除计算。,天气预报:沈阳:最高温度3,最低7大连:最高温度6,最低2,两地最高温度相差3 沈阳最低温度较大连最低温度低5 大连最高温度是沈阳最高温度的2倍,温度,1971年出生,30岁,1986
9、年出生,15岁,甲,乙,二人年龄 之差:19861971=15岁或 3015=15岁,二人年龄之比:3015=2(倍)19861971=1.0076(倍),定比尺度,按现象绝对差异与相对差异进行的辨别与区分。测量结果形成定比变量或定比指标。,定比变量或指标确切的值也以数字表述,有计量单位 ,可以进行加减运算。,定比变量或指标有绝对意义上的零点,既可以加减运算,也可以乘除运算。,第一,决定数据的整理、显示方法第二,决定数据的分析方法第三,决定计算机的处理方法,统计测量尺度的作用:,对测量尺度层次的判断,统计学第二章 统计数据的搜集,测量 精度,计算 方法,信息 数量,某甲某乙的生命现象,高 层次
10、 低,定类测量,定序测量,定距测量,定比测量,对于不同的现象,要注意准确性,测量尺度的正确应用,定类测量,对圣亚海洋世界的评价:,对于人的主观态 度,定序尺度可 能是最好的方法,(定距以上的尺度不一定合适),对数量差异的度量,要注意层次,测量尺度的正确应用,在自然或社会经济领域里,单纯的定距变量是很少的,绝大多数定距变量同时也是定比变量。,定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。,注意:,(二)变量:说明总体或个体某种特征的概念。变量值:变量的具体数值。例如,工资是变量,而工资的具体取值 600、800、1200则是变量值。定性变量:不能用数量表示。 按形式分定
11、量变量:能用数量表示。 确定性变量:指在一定条件下取值确定的变量 。 按性质分随机变量:取值不确定的变量。 连续型变量:变量值连续不断。 按变量值的形式离散型变量:变量值以整数位断开。,如性别,如年龄、工资,不可一一列举,可一一列举,三、指标及指标体系,(一)指标:统计指标是反映统计总体数量特征的概念。 (二)指标与标志的区别与联系。 区别主要是: 1. 标志是反映总体单位的属性和特征,而指标则是 反映总体的数量特征。2. 标志有不能用数值表示的品质标志与能用数值表示的数量标志两种,而指标都是可用数值表示的,没有不能用数值表示的指标。 二者的联系则是有些统计指标数值是从总体单位的数量标志值汇总
12、而来的。 (三)指标体系将一系列相互联系、相互补充共同说明一个总体各方面特征的指标组成整体就构成统计指标体系。,统计指标,反映社会经济现象总体数量特征的概念及其具体数值,时间限制,空间限制,指标名称,具体数值,计量单位,计算方法,构成要素:,性质:,统计学第一章 绪论,四、样本及统计推断,(一)样本(Sample) :从总体中抽取出来,用来代表总体的个体的集合体。 样本容量(Sample size) :样本中所含个体的数量 ,用n表示。n大于或等于50的样本为大样本。 (二)统计推断:根据样本资料对总体的分布状况和分布特征进行推断。样本 总体统计推断,总体的缩影,样本有较高的代表性是统计推断的
13、前提条件,第二章 统计数据的搜集与整理,第一节 统计调查 一、统计调查的要求 统计调查是根据统计研究的目的,向调查单位搜集统计资料的过程。原始资料:未经加工整理 ,只能说明个体特征。 次级资料:经过加工整理,一定程度能说明总体特征。 统计调查的要求:,准确、及时、完整。,调查资料,二、统计调查的种类,(一)按调查对象包括的范围不同,分为全面调查和非全面调查全面调查:对总体中的所有总体单位进行调查。例如,人口普查。非全面调查:只调查总体中的一部分总体单位。例如,抽样调查。 (二)按调查登记的时间是否连续,分为经常性调查和一次性调查。经常性调查:对总体的状况进行连续不断的登记。一次性调查:对总体的
14、状况间隔一段时间调查一次。(三)按调查的组织方式的不同,分为统计报表和专门调查。统计报表是国家统计系统和各个业务部门为了定期取得全面的统计资料而采用的一种调查方式 。专门调查是指为了了解和研究某种情况或某项问题而专门组织的调查。,针对时期现象,针对时点现象,统计调查的分类不是互相排斥的,而是从不同角度对同一调查进行不同的分类,它们是相互联系、相互交叉的 。例如普查是一种专门组织的调查,又是一次性的调查,也是全面的调查。 全面调查由调查经费 、调查期限决定 非全面调查经常性调查由所调查指标的时间特征决定 一次性调查,三、统计调查方案设计,(一)确定调查的任务和目的。 (二)确定调查对象和调查单位
15、。(三)拟定调查提纲和编制调查表。单一表 :一份表上只登记一个调查单位的调查项目 调查表一览表:一份调查表同时登记若干个调查单位的调查项目 (四)确定调查的方式和方法 (五)确定调查时间和调查期限:调查时间是调查资料所属的时间;调 查期限是调查工作的起至时间。 (六)制定调查的组织实施计划,总 体,总体单位,四、统计调查组织形式,(一)统计报表 统计报表是按照国家相关法律的规定,按照统一的表式、统一的指标、统一的报送时间和报送程序自上而下统一布置,自下而上地逐级定期提供基本统计资料的一种调查方式。 统计报表的种类: 按调查范围不同,统计报表可以分为全面统计报表和非全面统计报表。 按报送时间不同
16、,统计报表可以分为日报、旬报、月报、季报、半年报和年报统计报表 。 按报送范围不同,统计报表可以分为国家报表、部门报表、地方报表。 按填报单位不同,统计报表可以分为基层报表和综合报表。,(二)普查,概念:普查是专门组织的一次性的全面调查。 特点:1、普查是一次性的定期调查 。一般要规定统一的标准时间 。如 我国 第五次人口普查的标准时间为2000年11月1日0时 。2、普查是一种全面调查 。它比其他任何一种调查形式更能掌握大量、详细、全面的统计资料。花费的人力、物力很大。3、普查是专门组织的调查,所以其数据一般比较准确,规范化程度也较高 。,末位数字为0的年份 人口普查末位数字为3的年份 第三
17、产业普查 末位数字为5的年份 工业普查 末位数字为7的年份 农业普查,搜集有关国情、 国力的基本数据,(三)重点调查,概念:只对总体中的重点单位进行调查。单位数少 调查的标志值在总体标志总量中占有很大的比重 (四)典型调查 概念:有意识地从总体中选出少数几个具有代表性的典型单位进行深入细致的调查研究 。,重点单位,适宜变量值分布极 不均衡的总体,掌握总体数量方面的基本情况,一般不进行数量推算,侧重于对总体的定性认识,凭主观抽取 调查单位,(五)抽样调查,概念: 按照随机原则从总体中抽取一部分单位作为样本,并根据样本 指标数值推算总体指标数值的调查方式。 特点: 1、样本单位是按随机原则抽取的。
18、2、要用样本数据推算总体数据。3、抽样误差可以计算并事先计算并加以控制。 适用范围 : 1、对一些不可能或不必要进行全面调查的客观现象。 2、对普查资料进行必要的修正。3、抽样调查可以用于工业生产过程的质量控制。 4、利用抽样调查还可以对总体的某种假设进行检验,随机抽取样本旨在提高样本代表性,抽样调查的组织方式,1、简单随机抽样按随机原则直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位在抽选时都有同等的中选机会。 2、分层随机抽样先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽取一定单位构成样本。 3、系统随机抽样是先将总体各单位按某一标志进行排队,然后按固定顺序和间隔
19、来抽取样本。排队可按无关标志,也可按有关标志。例如,从200个单位中抽取10个单位,间隔为20(200/10)即将200个单位10等份,每等份抽取1个单位,从第一等份中随机抽取1个单位,以后的样本单位均按等距抽取。4、整群随机抽样是先将总体分成若干群,然后以群为单位从中随机抽取若干群,对中选群的全部单位进行全面调查 。,全面统计报表(定期、全面调查) 全面调查普查(全面、一次性、专门调查) 统计调查的组织方式 抽样调查(随机抽取调查单位)典型调查 非全面调查(凭主观抽取调查单位)重点调查(只调查重点单位),五、统计调查的具体方法,(一)直接观察法调查者到现场直接对调查对象进行观察、计数、计量。
20、资料较准确、生 动,但需要花费较大的人力、财力和时间 。 (二)采访法采访法是指调查者向被调查者询问,根据被询问者的答复来搜集资料的一种调查方法。包括:口头询问法;问卷法;开调查会;电话调查 。问卷是有问有答的调查表,提问方式和提问次序是问卷设计应注意的问题。问卷的提问方式包括封闭式提问和开放式提问两种方式,问卷的提问次序应遵循先易后难的原则。 (三)报告法 调查单位向上报送统计资料的方法。如统计报表。,六、统计调查误差,统计调查误差是统计调查所得到的数据与客观真实数据之间的偏差。 根据误差产生的原因不同,对统计调查误差可进行如下分类:登记性误差(计量、记录、计算等差错而引起的误差 )系统性误
21、差代表性误差(样本代表性不足) 随机性误差(抽样误差),统计调查误差,全面调查只可能产生登记性误差,非全面调查存在代表性误差,还可能产生登记性误差。,第二节 数据整理,一、什么是数据整理:数据资料的整理是指将统计调查所得到的原始资料进行科学得分组和汇总,并用一定的方式将其显示出来,为统计分析推断提供系统化、条理化的资料的过程。 数据整理的步骤:数据预处理、统计分组、汇总、显示。二、数据的预处理数据整理首先要对调查得到的数据进行审核,数据审核主要从完整性和准确性两个方面进行。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要是检查数据资料是否真实
22、地反映了客观实际情况,统计调查数据是否有错误,计算是否正确等。 数据审核的方法主要有逻辑检查和计算检查两种方法。逻辑检查是定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。,三、统计分组,(一)统计分组的概念和作用统计分组是根据统计分析的目的和要求,按一定的标志将总体划分为若个不同的部分。如人口按性别分为两组,学生按成绩分为五组。统计分组的作用: (1)区分社会经济现象的类型。一个总体往往包含很多个体,通过统计分组可将性质相同的个体归为一类,从而把不同的社会经济现象区分开来。 (2)反映和研究总体的内
23、部构成。通过统计分组后,计算各组成部分的总量占总体总量的比重,从而反映总体的内部构成状 (3)分析研究现象之间的依存关系。如将居民按收入分组,并计算各组的消费支出,可看出收入与消费支出的依存关系。,(二)统计分组的原则与类型,1统计分组的原则(1)完备性原则:总体中的任何一个个体都有组可归 。(2)互斥性原则 :每个个体只能划归其中的一个组中。概括地讲进行统计分组时,要使总体中的每个个体都有组可归,而且只能归入其中一个组。即采取“不重不漏”的原则。 2、分组的类型 按分组标志的选择不同,统计分组可分为品质标志分组与数量标志分组两种形式。 (1)品质标志分组的组数和组限比较容易划定。有多少个标志
24、表现就可划分为多少个组 。对一些品质标志,其标志表现大众熟知,如性别、民族等,相应的组数和组限很容易划定;而对于另一些品质标志如行业、职业,可从国家统计局制定了统一的分类目录中查询,如 国民经济行业分类目录、职业分类目录、产品分类目录等。,不遗漏,不重复,(2)数量标志分组的组数和各组界限,按数量标志分组时,组数和各组界限都较复杂,需要人为地确定。 数量标志分组有两种形式: (1)单项式分组。单项式分组是每个组的组别只用一个变量值表示的分组方式 。即每遇到一个不同的变量值单独列组。 (2)组距式分组。组距式分组是指每个组用表示一定变动范围的两个变量值表示,即将数量标志的取值范围划分成若干个区间
25、 。如职工按工资分组如下:800900,9001000,10001100,11001200。在组距式分组中,每组最大的变量值叫该组的上限,最小的变量值叫该组下限,如上述工资分组中第一组的上限900,下限800。组距上限下限 组距式分组又可分为等距分组与异距分组两种。,单项式分组适宜于离散变量分组,且变量值取值个数不多的情形。,组距式分组适宜于连续变量分组,或取值个数较多的离散变量分组。,3、分组体系,对同一个总体采用两个或两个以上的分组标志进行一系列分组所形成的体系称为分组体系。分组体系可分为平行分组体系和复合分组体系两种类型。 (1)平行分组体系。在同一个分组体系中,若将各个分组标志相互独立
26、平行地进行分组,则这种分组体系称为平行分组体系。如将工人总体按性别分,按工龄分,按工种分。(2)复合分组体系。在一个分组体系中,若将各个分组标志层叠或交叉进行分组,则这种分组体系称为复合分组体系。,各分组之间 相互独立,各分组之间 不独立,四、次数分布,(一)次数分布的概念和类型1、概念: 按某种标志对总体进行分组后,就会形成总体单位数在各组之间的分布,这就是次数分布。如某车间工人按性别分组如下:分组后就必然会形成50个总体单位在各组间的分布,这就是次数分布。次数:分布在各组的总体单位数。频率:各组次数与总次数之比。次数分布数列:将各组组别与次数依次排列所形成的数列。次数分布数列的要素:(1)
27、组别(2)次数或频率 组别 次数 频率,2、次数分布数列的类型,按选择的分组标志的不同,次数分布数列可分为属性分布数列和变量分布数列两种。属性分布数列是按品质标志分组形成的数列,简称品质数列。如上述按性别分组形成的分布数列。变量分布数列是按数量标志分组形成的数列,简称变量数列。由于按数量标志分组有单项式分组与组距式分组之分,变量数列也有单项式变量数列与组距式变量数列两种。单项式分组形成的数列叫单项式变量数列;组距式分组形成的数列叫组距式变量数列,组距式变量数列根据组距的不同又可分为等距数列和异距数列。,单项式数列,等距数列,异距数列,对于单项式数列和等距式数列可以通过比较各组次数或频率的大小,
28、判断次数分布的疏与密的程度,次数或频率大的组,分布就密集,次数或频率小的组,分布相对稀疏。对于异距数列,由于各组的组距不完全相等,各组次数或频率的大小会受组距的影响,因此不能根据各组次数或频率的大小来判断分布的疏与密,为消除各组组距的影响,在分析异距数列时 ,需计算次数密度或频率密度,次数密度或频率密度大的组,分布就密集。次数密度和频率密度的计算公式如下:次数密度次数/组距; 频率密度频率/组距,(二)次数分布数列的编制,等距式数列的编制的步骤: 1、确定组数。对于等距式分组,在实际应用时,一般按斯特格斯(H.A.Sturges)提出的经验公式确定组数K:2、确定各组的组距。全距最大变量值最小
29、变量值 一般情况下d取5或10的倍数,为组数, N为总体单位数,d为组距,R为全距,3、组限的确定和组中值的计算,1、若分组变量为连续型变量,相邻两个组的组限应采用重叠的变量值,同时为遵循互斥性原则,在按组归类整理时,遵循“上限不在内原则”。 2、若分组变量为离散型变量,相邻两组的组限可以重叠也可以不重叠,若重叠仍然采用“上限不在内”的原则进行归类整理。 3、区分事物质的差别的数量界限应作为组限。 4、首末组的组限可以略大于最大变量值或略小于最小变量值。 5、组中值:组中值是组距式分组中各组变量值的代表值,用来代表各组变量值的一般水平,所以每组上限与下限的中点数值称为该组的组中值。用组中值作为
30、各组变量值一般水平的代表值,有一个必要的假定条件,即各组数据在本组内呈均匀分布或对称分布。对于开口组,通常假定开口组的组距与邻组组距相等,然后求得组中值。,4、各组次数或频率的计算,汇总各组次数与频率,将各组组别与各组次数一一对应排列,就得到所需的分布数列 。有时为了统计分析的需要,还需计算累计次数和累计频率。根据累计的方向不同可分为向上累计和向下累计。 向上累计:从变量值小的组向变量值大的组累加。 向下累计:从变量值大的组向变量值小的组累加。,第三节 数据资料的显示,一、统计表统计表是用于显示统计数据的表格。其构成包括:总标题、横行标题、纵栏标题、数据资料、表末附注。 二、统计图,1、直方图
31、 2、折线图 3、曲线图 4、茎叶图,第三章 数据分布特征的描述,总量指标和相对指标集中趋势测度离散趋势的测度偏态和峰度的测定,第一节 总量指标和相对指标,一、总量指标 (一)概念:总量指标是反映总体总规模或总水平的指标,例如国内生产总值、全国人口数、粮食总产量、工业总产值等指标都是总量指标。 (二)种类:1、按反映总体内容的不同,可分为标志总量和总体单位总量。标志总量是标志值之和;总体单位总量是总体单位的总个数。2、按其反映的时间状况的不同,总量指标可分为时点指标和时期指标。时点指标,也称存量指标,它反映总体在某一瞬间的现存总量。时期指标也叫流量指标,它是反映总体在一段时期内的累计总量。,相
32、加后无意义,一次性调查取得,与间隔长短无关,与间隔长短有关,经常性调查取得,可相加,3、按其表现形式不同,可分为实物指标与价值指标。实物指标用实物单位计量。实物计量一般有自然单位计量、度量衡单位、标准实物单位三种计量形式。价值指标是指用货币单位来计量的总量指标。 二、相对指标相对指标是两个有联系的统计指标对比形成的比率 。 1、计划完成程度相对指标2、结构相对数,3、比例相对数4、比较相对数5、强度相对指标强度相对数某一总量指标值/另一性质不同但有联系的指标值 6、动态相对指标,第二节 集中趋势测度,平均指标是变量值一般水平的代表值,它反映变量值集中趋势。常用的平均指标有算术平均数、调和平均数
33、、几何平均数、中位数和众数五种 。 一、算术平均数(Arithmetic mean) 算术平均数是描述集中趋势最常用的指标。其基本公式是:根据掌握的资料的不同,算术平均数有简单算术平均数和加权算术平均数两种。 1、简单算术平均数(Simple mean)针对未分组资料例 如8个工人的日产量(件)为:20,21,22,23,24,25,26,27,其平均日产量为(2021+27)/8=23.5(件)这就是简单算术平均数。 公式:设总体中有N个个体,各个个体的标志值为X1,X2,X3,Xn ,若用代表算术平均数,则其计算公式为:,2、加权算术平均数(Weighted mean)针对分组资料,例、根
34、据下表资料计算工人的平均日产量。平均日产量(32103518382)/3034.2(件) 此平均数就是加权算术平均数,工人数即为权数,加权算术平均数的大小受两个因素的影响:一是被平均的变量值;二是权数。权数的作用体现在:那个组的权数较大,那个组的变量值在平均数中起的作用就大,计算出的平均数就比较靠近该组的变量值。,此平均数受日产量和工人数两个因素的影响,公式:1.用X1,X2,X3,XK代表各组的变量值;用F1,F2,F3,FK代表各组的次数,则算术平均数的计算公式可写为:2.加权算术平均数也可以用频率做权数,其公式为:若上例以工人数比重为权数,平均日产量320.33350.6380.0734
35、.2(件),例:某车间工人按工资分组如下:以上分组为组距式分组,组距式分组要用组中值代表被平均的变量值。 即平均工资(8502095030105040115020)/110 1004.55(元),3、算术平均数的性质和特点,(1)各变量值与其均值的离差之和等于零,即:这一性质说明了算术平均数是变量数列的分布中心。 (2)各变量值与其均值的离差平方和最小,即:该性质说明,在所有平均指标中,算术平均数与各个变量值的离差平方和最小。从这一点看,算术平均数是误差最小的一般水平的代表值。 (3)算术平均值易受极端数值的影响。,二、调和平均数,调和平均数又称“倒数平均数”,它是变量数列中各变量值倒数的算术
36、平均数的倒数。 根据掌握的资料的不同,调和平均数有简单调和平均数和加权调和平均数两种。 1、简单调和平均数若 ,为被平均的变量值, 为调和平均数则 =2、加权调和平均数设X1,X2,X3,XK代表各组的变量值, m1,m2,m3,mK代表相应的权数,即各组 标志总量。若用 表示调和平均数,则其计算公式为:,3、相对数(或平均数)的平均数调和平均数一般是作为算术平均数的变形使用。因为调和平均数本质上仍然是标志总量除以总体单位总量,只是已知的资料不同。 例:根据A表和B表资料计算平均产值计划完成程度。 表A 平均产值计划完成程度总实际产值/总计划产值 (8512009570001051100011
37、54800)/24000 103.1,加权算术平均,加权调和平均,平均产值计划完成程度总实际产值/总计划产值,103.1,三、几何平均数(Geometric mean),几何平均数是n个变量值连乘积的n次方根 。 根据掌握的资料不同,几何平均数有简单几何平均数和加权几何平均数两种。 1、简单几何平均数针对未分组资料简单几何平均数适用于未分组资料计算平均速度和某些平均比率。设总体中有N个个体,各个个体的标志值为X1,X2,X3,XN,若用G代表几何平均数,则其计算公式为:2、加权几何平均数针对分组资料 加权几何平均数适用于分组资料计算平均速度和某些平均比率。设X1,X2,X3,XN,代表各组的变
38、量值,F1,F2,F3,FN代表相应的权数,则其加权几何平均数为:,【例】某企业生产某种产品要经过三个连续作业车间才能完成。若某月第一车间粗加工产品的合格率为97,第二车间精加工产品的合格率为91%,第三车间最后装配的合格率为89%,计算三个车间的平均合格率为多少?几何平均数的应用范围较窄,只有当变量值的连乘积等于总比率、总速度时,求平均比率、平均速度才用几何平均数 。,四、中位数,(一)概念 中位数是位置平均数,若将变量值按大小顺序排列,处于中点位置的变量值即为中位数。中位数不受极端数值的影响 。 (二)由未分组资料确定中位数 1、将变量值按大小顺序排列。 2、确定中位数的位置:中间项(n+
39、1)/2 3、确定中位数 (1)变量数列的项数为奇数:中间项对应的变量值即中位数。 例:五个企业的利润(万元)为:5,6,8,10,12,则利润额的中位数8(万元) (2)变量数列的项数为偶数:中间两项的算术平均数为中位数。 例 六个企业的利润(万元)为: 5,6,8,10,12,13,则 利润额的中位数(810)/29(万元),(三)由分组资料确定中位数,1、由单项式数列计算中位数 。 首先找出中位数所在组,即用( f+1)/2 确定中位数位置,并计算向上累计次数或向下累计次数,累计次数达到( f +1)/2 的组即为中位数所在组,中位数所在组对应的变量值即为中位数。 例:根据下表资料确定日
40、产量的中位数。,中间项31/215.5即中位数是第15项和第16项的平均数。由累计次数可知:中位数在第二组,所以日产量的中位数为33件。,2、由组距式数列计算中位数,(1)确定中位数所在的组。即用( +1)/2 确定中位数位置,并计算向上累计次数或向下累计次数,累计次数达到( +1)/2 的组即为中位数所在组。 (2)然后用下面的公式近似计算中位数的值:式中,L为中位数所在组的下限,U为中位数所在组的上限;Sm-1为中位数所在组以下各组的累计次数或频率,Sm+1为中位数所在组以上各组的累计次数或频率,fm为中位数所在组的次数或频率,d为组距。,已知频率,已知次数,例 某校3000名学生的月消费
41、额资料如下,确定月消费额的中位数。,中间项(30001)/2 1500.5 由累计次数可知:中位数在第三组,即700-800之间。 由中位数公式可计算:,五、众数(Mode),众数是变量数列中出现密度最大的变量值,众数也是分布密度曲线的高峰位置对应的变量值,是反映分布中心的指标。根据数据分布特点的不同,众数可以不存在,可以有一个,也可以有多个。对于未分组资料直接根据概念就可确定众数。如六个企业的利润(万元)为:5,6,8,8,10,12,则众数为8。对于单项式数列,次数最大的组为众数组,众数组对应的变量值即众数。对于组距式数列: 1 .确定众数组。次数密度或频率密度最大的组为众数组。2.然后用
42、下面的公式近似计算中位数的值:,式中,M0为众数;L为众数组的下限;U为众数组的上限;d为众数组的组距;f为众数组的次数密度或频率密度;f+1为众数组上一组的次数密度或频率密度;f-1为众数组下一组的次数密度或频率密度。,例某校3000名学生的月消费额资料如下,确定月消费额的众数。,首先,确定众数组。700-800组的密度最大,所以700-800组为众数组。 由众数公式可计算:,755.9元,六、众数、中位数和均值的比较,1如果数据的分布是对称的,则众数、中位数、和均值完全相等,即有: 2、如果数据是左偏分布(分布密度曲线的尖峰位于变量较大值的一边),三者之间的关系表现为: 3、如果数据是右偏
43、分布, 则有:三者的关系可用下图表示:4当数据分布的偏斜程度不是很大时,算术平均数到众数的距离是算术平均数到中位数距离的3倍。即:,第三节 离散趋势的测度,离散指标是反映变量值差异程度的指标。 作用 1、反映变量值的离散趋势。2、离散指标是衡量平均数代表性的尺度。离散指标值越小,平均数的代表性就越好 。3、变异指标可以表明现象的均衡性 常用的离散指标有:极差、四分位差、平均差、方差和标准差、离散系数等。 一、极差(Range) 极差也叫全距,是一组数据的最大值与最小值之差。 极差越大,表明变量的变动范围越大,即离散程度越大。 组距式数列的极差=最高组上限-最低组下限,粗略反映 离散程度,二、四
44、分位差(内距),四分位差是上四分位数与下四分位数之差。 将变量值按大小顺排列,然后分为四等份,得到三个四分点,四分点对应的变量值为四分位数,靠近变量值大的一端的四分位数叫上四分位数,用QU表示;靠近变量值小的一端的四分位数叫下四分位数,用QL表示,若用H表示四分位差,则计算公式为: 四分位差反映了中位数两侧中间一半数据的离散程度。 三、平均差 1、概念平均差是随机变量各个取值与其算术平均数的离差的绝对值的算术平均数。2、公式,根据未分组资料,根据分组资料,四、标准差和方差,1、概念标准差是各变量值与其算术平均数离差平方的算术平均数的平方根。2、公式例 某公司五个企业的利润额(万元)为:2,5,
45、7,9,12,计算平均差和标准差。,根据未分组资料,根据分组资料,=(2+5+7+9+12)/5=7,=,=14/5=2.8(万元),=3.41(万元),(万元),3、方差方差是标准差的平方。,平均差、标准差能反映所有变量值与中心的偏离程度。,根据未分组资料,根据分组资料,由方差的性质:,=,根据未分组资料,根据分组资料,例 根据以下资料计算平均差和标准差。,平均 产量,=6160/50=123.2(个),Md,=312/50=6.24(个),五、离散系数,离散系数是反映变量值相对离散程度的指标。是反映变量值离散程度的绝对离散指标与其算术平均数的比率 。极差系数: 四分位差系数:平均差系数:
46、标准差系数:,某大学文、理科学生数学统考的平均成绩 和标准差为:理科:平均分数 86 标准差9文科: 平均分数 71 标准差8 比较文理科学生平均成绩的代表性。 理科标准差系数=9/86=10.47% 文科标准差系数=8/71=11.27% 理科学生平均成绩代表性高。,离散系数消除了 计量单位和 平均水平的影响,第四节 偏态和峰度的测定,一、偏态系数(Skewness) (一)经验测定法 经验测定法是利用平均数之间的关系来测定随机变量的偏斜状态的,有皮尔逊(KPearson)偏度系数和鲍莱(ALBowley)偏度系数。 1、皮尔逊(KPearson)偏度系数2、鲍莱(A L Bowley)偏度
47、系数,取值在-3+3之间,取值在-1+1之间,为正表示正偏,为负表示负偏,绝对值越大表示偏度越大。,(二)矩法偏度系数,1、什么是矩? 原点矩是随机变量取值K次方的数学期望,称为K阶原点矩 。未分组资料: 分组资料:中心矩是随机变量各取值与数学期望离差的K次方的数学期望,称为K阶中心矩。 未分组资料: 分组资料: 2、矩法偏度系数二、峰度系数,为正表示正偏,为负表示负偏,绝对值越大,表示偏度越大,峰度系数越大越尖峭,大于3为尖峰分布,第四章 抽样分布与参数估计,抽样分布 抽样平均误差 区间估计 样本容量的确定,第一节 抽样及抽样分布,一、基本概念总体参数:未知的待估计的总体指标值。记为估计量
48、: 用来估计总体指标数值的样本指标称为总体指标的估计量。 通常记为 常用的样本估计量与总体参数的表示符号如下表所示。,重置抽样:有放回抽样不重置抽样:不放回抽样,相互独立,不独立,抽样分布是样本估计量的概率分布。即由样本估计量的所有可能取值及其相应概率组成。 例:设总体由4、5、6三个数字组成,从中抽取容量为2的随机样本。试列出样本均值的抽样分布。样本均值的抽样分布,与抽样的两种不同方式重置抽样和不重置抽样有关。在重置抽样情况下,样本可能数目为Nn=32=9在不重置抽样情况下,样本可能数目为ANn=A32=6,由于两种抽样方式下样本可能数目不同,因此,样本均值的抽样分布也不同。以下以重置抽样为例。对于重置抽样,全部可能样本分别为(4,4),(4,5),(4,6),(5,4),(5,5),(5,6),(6,4),(6,5),(6,6),每个样本被抽到的概率相同,均为1/9 。对于每个可能样本,均可计算出一个样本均值,并进一步可得样本均值的抽样分布如下所示。4 4.5 5 5.5 6 1/9 2/9 3/9 2/9 1/9,