1、统计专业技术培训,主讲:张 良,初级试卷分值构成,2018/7/3,2,中级试卷分值构成,2018/7/3,3,第 一 讲 统计方法,主要内容,1、统计与数据2、数据描述3、参数估计4、假设检验5、相关分析与回归分析6、时间序列分析7、统计指数,2018/7/3,5,统计基础-第一章 统计和数据 描述统计,静态描述第二章 数据描述,动态描述,第六章 时间序列分析,第七章 统计指数,推断统计,第四章 假设检验,第五章 相关分析与回分析,第三章 参数估计,2018/7/3,6,第 一 章统计和数据,复习重点:,1、统计学的基本含义2、描述统计与推断统计3、统计数据的类型与来源4、各种统计调查的特点
2、和应用,2018/7/3,8,一、基本含义,(一)统计 就是用来处理数据的一门学问。(二)统计学 是用来收集数据、分析数据和由数据得出的一组概念、原则和方法。 统计分析数据的方法由描述统计和推断统计。 (三)统计的应用,2018/7/3,9,统计学的应用领域,2018/7/3,10,(四)描述统计与推断统计及其关系,1、描述统计 研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。 2、推断统计 研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。
3、3、描述统计和推断统计的关系 描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。,2018/7/3,11,二、数据类型,(一)定性变量(数据)与定量变量(数据) 1、定性变量:只能反映现象属性特征的变量,又称分类变量,其观察结果称定性数据或分类数据。如果类别具有一定的顺序,又被称为顺序变量,其观察结果就是顺序数据。 如:被调查者的职业、职称、受教育程度 2、定量变量:反映现象数量特征的变量,也称数值变量,其观察结果叫定量数据。 如:被调查者的年龄、工龄、月收入 定量数据的功能要优于定性数据的功能,2018/7/3,12,二、数据类型,(二)观察数据和
4、实验数据 1、观察数据:是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。 2、实验数据:一般是在科学实验环境下取得的数据。在实验中,对环境进行人为的、严格的控制,数据的产生一定是在科学实验环境下取得的。如在太空实验仓所取得的数据一定是实验数据。,2018/7/3,13,三、数据的来源,(一)原始数据:观察数据和实验数据,是统计数据的直接来源。(二)次级数据:公开和尚未公开的统计数据。是统计数据的间接来源。中国统计年鉴、中国统计摘要、中国社会统计年鉴、中国工业统计年鉴、中国农村统计年鉴、中国人口统计年鉴、中国市场统计年鉴等。,2018/7/3,14,四、统计
5、调查,统计调查就是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地搜集统计数据资料的过程。主要有:普查 抽样调查 统计报表 重点调查 典型调查,2018/7/3,15,主要优点:所搜集的资料全面、详尽、系统。,局限性:涉及面广、工作量大、 周期长、耗资大。,适用性: 不能或不适宜于定期的全面统计报表搜集的统计资料;摸清重大的国情、国力。,(一)普查,概念:是专门组织的一次性全面调查。 用于搜集属于一定时点上或一 定时期内的社会现象总量。,2018/7/3,16,1994年经国务院批准的10年为周期周期性的普查制度:人口普查:逢0年;农业普查:逢7年;工业普查:逢5年;第三产业:逢3年
6、;基本单位:逢1、6年,第一轮周期性普查结束后修改为:人口普查:逢0年;经济普查:逢3逢8年份);农业普查:逢6年,我国的普查制度,我国在50年和53年进行了第一次工业普查和人口普查,但没形成周期性的普查制度,2018/7/3,17,概念:按照随机原则从调查对象中抽取一部分单位样本进行调查,用样本资料推断总体数量特征的非全面调查方式。,样本抽取不受主观及系统因素影响,每单位都有均等被抽中机会,2,调查功能推断总体;,3,抽样误差可以事先计算并控制,用样本数量特征推断总体数量特证,(二)抽样调查,特点:,2018/7/3,18,适用性: 不可能或不必要进行全面调查又需要比较正确的全面统计资料。,
7、主要方法:,概率抽样,非概率抽样,简单随机抽样分层抽样整群抽样系统抽样,2018/7/3,19,个体数目不多,但其标志值占总体标志总量的比重大,概念:在调查对象中只选择重点单位进行的非全面调查。,调查单位的选取有意识地抽取 ;调查单位重点单位;性质非全面调查;特点不能推断总体。,重点单位的确定:,确定一个最低标志值,标志值达到或超过最低标志值的单位就是重点单位;,确定一个最低重点单位累计标准值,超过累计值的即为重点单位。,(三)重点调查,要点,2018/7/3,20,概念:根据调查目的,有意识地选择若干具有代表性的 典型单位进行调查,以认识事物发展变化的规律。,调查单位的选取有意识地抽取 ;调
8、查单位典型单位(关键);性质非全面调查;特点不宜推断总体。,(四)典型调查,作用,要点,1、补充全面调查的不足。2、在一定条件下可以验证全面调查数据的真实性。,2018/7/3,21,四种调查比较,2018/7/3,22,(五)统计报表含义:是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法)自下而上地提供统计资料的一种调查方式。,种类:,内容:表式和填表说明,按范围分,按报送周期分,按填报单位分,2018/7/3,23,第二章 数据描述,复习重点:1、用统计图表来展示数据2、用数据来概括数据,2018/7/3,25,数据描述:就是利用统计图表和统计数据来概括某些事物的基本特征。,2
9、018/7/3,26,一、定性数据的图表展示,1、生成频数分布表,定性数据:分类数据、顺序数据,某企业职工文化程度频数分布表,2018/7/3,27,主要用于总体中各组成部分所占比重的研究,2、定性数据的图形表示,(1)饼图,2018/7/3,28,某企业职工专业技术职称统计分布饼图,2018/7/3,29,某企业职工文化程度统计分布条形图,(2)条形图,主要用于观察不同类别数据的多少或分布情况,2018/7/3,30,(3)环形图,主要用于比较不同变量之间的结构差异,2018/7/3,31,二、定量变量的图表展示,1、生成频数分布表(1)分组 按什么分?分多少组?(2)确定组距、组限 等距或
10、不等距、 组限的形式(3)汇总结果、得出频数分布表 汇总的内容?怎么汇总?,2018/7/3,32,某班级统计学成绩频数分布表,2018/7/3,33,某企业职工月收入统计分布直方图,2、定量数据的图形表示,2018/7/3,34,某企业职工年龄统计分布折线图,2018/7/3,35,工龄与月收入散点图,2018/7/3,36,三、用统计表来表示数据,我国2010年全国规模以上工业企业主要经济指标,注:工业总产值按当年价格计算。 资料来源:中国统计年鉴(2011年),中国统计出版社。,2018/7/3,37,统计表的构成: 表头、行标题、列标题、数字资料、表外附加,2018/7/3,38,四、
11、用数字来概括数据,两个问题: 一是分析数据的集中趋势; 二是分析数据的离散程度。 从不同的角度来反映数据分布特征和分析统计数据,以达到分析和运用统计数据的目的。,2018/7/3,39,1、定性数据的数字特征,常用方法:百分数、中位数和众数,被调查者的最高学历统计结果,2018/7/3,40,2、定量数据的数字特征 常用的反映定量数据特征的统计量(统计指标、分析指标) 水平度量:平均数、中位数 众数、分位数 差异度量:极差、四分位差 标准差、方差,2018/7/3,41,(1)水平的度量简单平均数,式中: 算术平均数 X 各单位的标志值 n 总体单位数 总和符号,2018/7/3,42,加权平
12、均数,式中: 算术平均数 X 各组数值 f 各组数值出现的次数(即权数),2018/7/3,43,设某厂职工按日产量分组后所得组距数列如下,据此求平均日产量。,2018/7/3,44,中位数: 将数据按大小顺序排列,居于中间位置的那个数值就是中位数。,2018/7/3,45,2018/7/3,46,众数: 众数就是数据中出现次数或频率最多的数值。,由定义可看出众数存在的条件:, 只有在数据比较多,而且又有明显的集中趋势时才存在众数。,M0,M0,M0,若有两个次数相等的众数,则称复众数。,M0,M0,2018/7/3,47, 在数据很少,或数据虽多但无明显集中趋势时,计算众数是没有意义的。,下
13、三图无众数:,2018/7/3,48,平均数、中位数和众数的特点: 平均数易受极端值的影响。当数据中出现极大值或极小值,即数据呈严重偏态分布时,平均数代表性较差。 中位数和众数不受极端值的影响,具有统计上的稳健性,当数据呈偏态特别是严重偏态时,它们的代表性比平均数更高。 2015年,全国城镇非私营单位平均工资为62029元 月平均工资为5169元,2018/7/3,49,(2)差异的度量,极差:,是一组数据中最大值和最小值之差,极差的特点, 优点: 计算方便,易于理解。, 缺点: 极差只考虑数据两端数值差异,它最易受极端值的影响,不能全面、准确地反映数据的变异(分散)程度。,2018/7/3,
14、50,方差和标准差,方差是各变量值与其平均数离差平方的平均数,标准差是各变量值与其平均数离差平方平均数的平方根,即:方差的平方根。 其公式为:,2018/7/3,51,根据以下资料,计算企业职工平均工资的标准差。(已知平均工资为760元),某企业职工工资分组数据表,2018/7/3,52,总体方差,总体标准差,2018/7/3,53,离散系数(变异系数、标准差系数),离散系数,是标准差与平均数的比率。用来测定数据离散程度的相对数。,2018/7/3,54,2018/7/3,55,标准分数,是各变量值与其平均数的离差除以标准差后的比值,用于测定某一个数据在该组数据中的相对位置。,标准分数与标准差
15、系数的区别:,标准分数是用来测定两个在不同平均数、不同标准差的数据在各组中相对位置。 而标准差系数是用来测定在不同的平均数或不同的计量单位的两组数据之间比较平均数代表性的大小或离散程度的大小。,2018/7/3,56,标准分数的计算公式:,计算结果有三种情况:即 Z0,2018/7/3,57,第三章 参数估计,复习重点1、抽样分布及相关概念2、参数估计3、样本量的确定,2018/7/3,58,社会,抽样,推断,总体(N),样本(n),一、抽样分布及相关概念,1、总体与样本,2018/7/3,59,2、总体参数与统计量,2018/7/3,60,3、重置抽样与不重置抽样,4、可能的样本数目,5、总
16、体分布与抽样分布,总体分布是总体所有的观察值所形成的分布。,抽样分布是一种理论分布,它构成了推断总体参数的理论基础。根据统计量来推断总体参数具有某种不确定性,不同的样本可以计算出不同的统计量值。,2018/7/3,61,总体分布与抽样分布的关系,2018/7/3,62,6、统计量的标准误差,用于衡量样本量的离散程度,在参数估计中,用于衡量样本统计量与总体参数之间的差距。,2018/7/3,63,二、参数估计,1、点估计,即用样本统计量接直作为总体参数的估计量。,评价估计量的标准:无偏性 有效性 一致性,2018/7/3,64,2、区间估计,区间估计的概念 根据样本统计量以一定的可靠程度去估计总
17、体参数值所在的范围或区间,是抽样估计的主要方法。抽样估计的置信度与精确度 置信度:表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体参数真实值的可能性大小,一般以1- 表示。其中 表示显著性水平,即某一小概率事件发生的临界水平。 置信度通常采用三个标准: (1)显著性水平=0.05,即1- =0.95 (2)显著性水平=0.01,即1- =0.99 (3)显著性水平=0.001,即1- =0.999,2018/7/3,65,抽样估计的精确度:用置信区间的大小即抽样极限/允许误差来表示。 抽样估计的置信度与精确度的矛盾关系。 在样本容量和其他条件一定的情况下, 若希望抽样估计有较高的可靠
18、度,则必须扩大置信区间,即必须降低估计的精确度; 若希望抽样估计有较高的精确度,即置信区间范围缩小,则必须降低估计的把握度。 即:抽样估计要求的把握度越高,则抽样允许误差越大,精确度越低;反之则相反。,2018/7/3,66,区间估计需要考虑的要素: (1)总体是否为正态分布 (2)总体方差是否已知 (3)抽取的是大样本(n30)还是小样本(n30),3、总体均值的区间估计,2018/7/3,67,总体均值在 1- 置信水平下的置信区间,2018/7/3,68,例1:某厂生产的零件长度服从正态分布,从该厂生产的零件中随机抽取25件,测得它们的平均长度为30.2厘米。已知总体标准差 =0.45厘
19、米。 要求:估计零件平均长度的可能范围( =0.05)。 已知: , ), =30.2, =25, 1- =0.95,,=0.05时, =1.96,2018/7/3,69,总体均值的置信区间为:,即: (30.2-1.960.09, 30.2+1.960.09),(30.0230.38)厘米,即我们可以以95%的概率保证该厂零件平均长度在30.02厘米到30.38厘米之间。,2018/7/3,70,例2:从某市高中生中按不重复抽样方法随机抽取25名调查每周收看电视的时间,分组资料见表,要求: 估计该市全体高中生每周平均看电视时间的置信区间(给定的显著性水平为0.05)。,2018/7/3,71
20、,已知: =25, =0.05样本均值 样本方差 =4.33 查 分布表知 =0.05时,临界值 = =2.0639,因此, 抽样平均误差 抽样允许误差,2018/7/3,72,总体均值置信度为95%的置信区间为:( , ) = =(5-0.859,5+0.859)=(4.14,5.86) 即我们可以以95%的把握保证该市高中生每周平均看电视时间在4.14到5.86小时之间。,2018/7/3,73,4、总体比例的区间估计,在大样本下,样本比例的分布趋近于均值为 、方差为 的正态分布。因此,给定置信度1 ,查正态分布 表得 ,则样本比例的抽样极限误差为: 所以,总体比例的置信度为1 的置信区间
21、为:,2018/7/3,74,例、某厂对一批产成品按不重复抽样方法随机抽选200件进行质量检测,其中一等品160件,试以90%的概率估计一等品率的范围。 已知: ,1- =90%, =200 查表知: =1.645 计算得样本比例的抽样平均误差为: 抽样极限误差为: 所以,该批产品的一等品比例的置信区间为: 即这批产品的一等品率在75.35% 到84.66% 之间。,2018/7/3,75,三、样本量的确定,2018/7/3,76,2018/7/3,77,已知,=100 z=2,=10,例:某市拟对职工家庭收入状况进行抽样推断,根据历史资料已知本市职工家庭平均每人每月生活费收入的标准差为100元,若要求推断的可靠程度0.9545,允许误差范围为10元,则需抽取的样本单位数为,2018/7/3,78,例:某公司欲对一批产品抽样检验其合格率,已知其过去的合格品率曾有过99%、97%和95%三种情况,现在要求推断的允许误差不超过1%,把握程度为95%,则需要抽检的产品数量为多少?已知 p(1-p)=0.950.05=0.0475 (取按三种合格品率分别计算方差的最大值) z=1.96,2018/7/3,79,(件),2018/7/3,80,END,2018/7/3,81,