1、应用统计学,西安交通大学经济与金融学院统计系赵春艳,本课程的内容 第一章 绪论 第二章 统计数据的搜集、整理和 显示 第三章 统计数据的描述分析 第四章 参数估计 第五章 参数假设检验 第六章 方差分析 第七章 非参数统计方法 第八章 时间序列分析 第九章 相关与回归分析 第十章 统计指数,教材: 吴诣民 赵春艳应用统计学 陕西人民教育出版社,2006年。 参考书目: 1、李心愉应用经济统计学北京:北京大学出版社,2003年。 2、耿修林商务经济统计学北京:科学出版社,2003年 3、美戴维 R 安德森等商务与经济统计北京:中信出版社,2003。 4、肖筱南新编概率论与数理统计北京:北京大学出
2、版社,2002年。,第一章 绪论,第一节 统计学的学科性质 一、统计学的学科性质 1、争论:“方法论学科” “实质性学科” 2、统计处理数据的过程: 搜集数据整理数据分析数据解释数据,二、统计学的分类 1、描述统计学和推断统计学 2、理论统计学和应用统计学,第二节 统计学的几个基本概念 一、总体和总体单位 1、总体是由具有某种共同性质的许多个体组成的整体,构成总体的个体称为总体单位。 2、两层含义:统计学研究的是大量现象的数量特征,总体包含了大量现象;统计单位具有某一共同性质,但其他的性质、特征是不同的,便于在差异中寻找规律。,二、标志和指标 1、标志是说明总体单位特征和属性的名称,分为数量标
3、志和品质标志。 2、指标是说明总体现象数量特征的概念和数值。 按其反映数量特点的不同,分为数量指标和质量指标。,三、统计指标 1、从总体的一个特征到具体数值,中间有很多步要走。 2、以GDP的核算为例来说明 想看一国一年内生产活动的总量,定义GDP是一国在一定时期内最终产品的总价值。(内涵) 最终产品是本期生产本期不再投入生产使用的产品, 消费、投资、出口产品。(外延),跟踪所有产品的使用去向,再核算其价值是不可能的。部门增加值核算方法(计算方法) 棉花纱布 印染衣服 300350460580 880 部门增加值 30050110120 300 最终产品的总价值=880 部门增加值合计=300
4、+50+110+120+300=880 时间、空间、计量单位,第二章 统计数据的搜集、整理和显示,第一节 统计数据的搜集 一、统计调查方式 统计报表制度、普查、抽样调查、典型调查、重点调查,例2.1、一批钢材,抽样测试其抗张力,随机抽取76个样本观察值如下:(单位:kg /cm2) 41.0 37.0 33.0 44.2 30.5 27.0 45.0 28.5 40.6 34.8 31.2 33.5 38.5 41.5 43.0 45.5 42.5 39.0 36.2 27.5 38.8 35.5 32.5 29.5 32.6 34.5 37.5 39.5 35.8 29.1 42.8 45.
5、1 42.8 45.8 39.8 37.2 33.8 31.2 31.5 29.5 29.0 35.2 37.8 41.2 43.8 48.0 43.6 41.8 44.5 36.5 36.6 34.8 31.0 32.0 33.5 37.4 40.8 44.7 40.0 41.5 40.2 41.3 38.8 34.1 31.8 34.6 38.3 41.3 44.2 37.1 30.0 35.2 37.5 40.5 38.1 37.3,第二节 数据的整理 一、统计分组 1、统计分组是将统计总体按照一定标志区分成若干个组成部分的一种统计分析方法。 2、两点注意: 有时不易确定组与组之间的界限
6、; 穷尽原则、互斥原则。,二、频数分布数列 1、统计分组后,每个组分配的总体单位数称为频数或次数,频数/总体单位总数=频率。 2、意义 整理了杂乱无章的数据,同时显示出一批数的分布情况,是数理统计学中随机变量及其概论分布概念在实际中的应用。,3、分类: 按分组标志的不同,分为: 品质数列单项数列:一个变量值是一个组 变量数列组距数列:两个变量值构成的区间是一个组,三、组距分布数列的编制方法 第一步,排序后,极差=max-min 第二步,确定组数、组距。组数 k=1+3.32lgn(参考)组距=(max-min)/组数 第三步,组中值。组中值=(下限+上限)/2,四、累计频数分布数列 1、各组频
7、数向上、向下累计形成的数列。 2、在经济学中的应用。 洛伦茨曲线 基尼系数=A/(A+B),第三节 数据显示统计表和统计图 一、统计表 1、表的格式: 横行标题:对象(总体(常以年份形式表示)、总体分组、总体各单位) 纵栏标题:统计指标 交叉部分:指标值 2、注意事项: 数据居中,小数点对齐 左右不封口; 表下面注明资料来源。,二、统计图,第三章 统计数据的描述分析,第一节 集中趋势分析 集中趋势是数据分布的中心,描述集中趋势的指标有算术平均数、中位数、众数等。,某单位80个工人生产的零 单位:个 65 78 88 65 58 76 69 66 80 64 77 78 60 65 85 74
8、73 65 66 79 74 85 59 69 60 87 85 86 64 93 76 62 91 49 74 78 75 79 86 68 87 97 92 82 66 94 75 56 85 77 67 89 78 79 88 83 73 69 84 95 55 79 77 58 80 68 77 87 70 78 79 61 47 69 89 96 66 76 81 99 Min=47 max=99,一、算术平均数(均值) 1、将一批数累加起来,除以数据的个数,即为算术平均数。2、分为简单算术平均数和加权算术平均数,例、某单位80工人一周生产零件数。 1、简单算术平均数2、加权算术平均
9、数,3、算术平均数与数学期望 对于离散型随机变量X,设它的概率密度函数P(Xi)为,则的数学期望为对于连续型随机变量X,设其概率密度函数为f(X),则的数学期望为,4、算术平均数的缺陷 10 15 20 25 70去掉70后,,二、众数(M0) 1、众数是指一组变量值中出现次数最多的变量值。 2、众数的确定 未分组资料,M0就是出现次数最多的变量值。 上例中,78、79各出现5次,都是M0 数据分布是双峰的。,分组资料: 在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。,例、上例中众数组是第3组,,三、中位数及分位数 1、中位数 把一批数按照从小到大的顺序排列,处于数列中点的变量值
10、就是Me 确定方法 未分组资料:(n+1)/2中位数的位置。前例Me=77 分组资料:根据向上或向下累计频数分布数列,按照 确定中位数所在的组,然后确定。,2、百分位数 把数据按从小到大的顺序排列后,第P百分位数是指有P%的值小于或等于它,而有(100-P)%的值大于或等于它。 确定方法。i=(P/100)n就是第P百分位数的位置。 其中最常用的是四分位数。即把数据分成四个部分,每个部分包括1/4数值。,第二节 离中趋势分析 一、离中趋势 1、离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。 2、意义:首先,可以衡量算术平均数的代表性。 例:均值都为150的两组数50,100,15
11、0,200,250100,125,150,175,200 其次,进行产品质量管理和决策。 3、离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。,二、极差 1、极差也称为全距,是一组变量中最大值与最小值的离差,表明变量值变动的范围。用R表示极差,其计算公式是:2、缺点:易受极端值的影响。,三、四分位差 1、四分位差用数列中第3/4位次与1/4位次的变量值之差除以2来表示。2、意义: 剔除了极端值,说明50%数据分布的范围; 与中位数配合说明数据分布是否对称。若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2 若不相等,则是非对称的。,四、平均差 1、平均
12、差是指变量值与其算术平均数的离差绝对值的算术平均数,用符号AD表示。计算公式:2、优缺点,五、方差与标准差 1、方差与标准差是测定离中趋势最常用的指标。标准差是方差的平方根,也称均方差。 2、计算公式:样本方差和标准差要除以n-1,才是总体的无偏估计。3、标准差系数,第三节 偏度和峰度分析 一、矩的概念 1、矩是力学概念,用来表示力和力臂对中心的关系。统计学中借用这一概念讨论随机变量的分布特征。 2、统计学中,将矩定义为原点矩和中心矩。原点矩的定义是:k为整数,称为k阶原点矩,中心矩的定义是:,3、中心矩的两个重要性质: 分布对称时,奇数阶中心矩恒为零; 当分布为正态分布时,偶数阶中心矩有,二
13、、偏态 1、分布的偏态就是分布不对称的方向和程 2、它的测量主要是两种方法,一种是矩法,二是Pearson偏态系数。 Pearson偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为:当SK=0时, 呈对称分布; 当SK0时, 分布是右偏(正偏)的;当SK0时, 分布是左偏(负偏)的。,矩法估计就是利用中心矩来衡量分布的偏度。用公式表示为:例、前例数据的偏度分析。,三、峰度 1、峰度是变量分布的又一性质,它指的是分布曲线的高峰形态,也是分布曲线的尖峭程 2、衡量指标:峰度是用变量的四阶中心矩除以标准差四次方,并将结果再减3,用公式表示为:,3、正态分布的四阶中心矩系数
14、,亦即峰度指标就是以正态分布的峰度为比较标准,判断实际分布曲线的尖峭程度。 当峰度指标 0时,表示频数分布比正态分布更集中,分布呈尖峰状态;0时表示频数分布比正态分布更分散,分布呈平坦峰。 例、前例数据的峰度分析,第四章 参数估计,第一节 随机变量与概论分布 随机现象随机变量概论分布离散型和连续型随机变量,第二节 统计量与抽样分布 一、几个基本概念 1、总体和样本 研究对象的全体称为总体,组成总体的每个基本单元称为个体;把从总体中按照随机原则抽出的个体组成的小群体称为样本,所包含的个体总数称为样本容量。 总体=某项数量指标取值的全体=随机变量 一个容量为n的样本就是一个n维随机变量其中 相互独
15、立,与总体 具有相同的概率分布。,2、统计量与抽样分布 参数估计 统计量 样本函数称为统计量。设 是来自总体 的一个样本, 是 的函数,若 是连续函数且其中不含任何未知参数, 则称 是一个统计量。,抽样分布 统计量的概论分布为抽样分布, 总体的分布已知时,统计量的分布是确定的。,二、三大推断分布 (一) 分布 1、设 是来自总体(0,1)的一个样本,则称统计量 服从自由度为n的 分布,记为 。 此处,自由度是指包含的独立变量的个数。,2、性质: (1)设 ,且 独立,则 ,即分布具有可加性。,(2)分位点 若对于给定的 ,0 1,存在使得则称点 为 分布的上 分位点,如图所示。,(二)t分布
16、1、设XN(0,1),Yx2(n),且X,Y相互独立,则称随机变量为服从自由度为n的t分布,记Tt(n)。t分布又称学生氏(student)分布。,2、性质 关于y轴呈对称分布;当 时,近似于N(0,1)分布。 分位点 对于给定的,0 1,称满足的点 为t分布的分位点。,(三)F分布 1、设UX2(n1),VX2(n2),且U、V相互独立,则服从自由度为( n1,n2)的F分布,记为 2、性质 F分布是非对称的,分位点 对于给定的,0 1,称满足为F分布的分位点。 ,三、正态总体统计量的抽样分布 1、样本均值统计量的抽样分布。 (1)总体方差已知 (2)总体方差未知(3)当总体不是正态总体时,
17、由中心极限定理知,n很大,(n30),同(1),可以用样本方差替代总体方差。,2、样本方差s2的抽样分布,3、两样本均值差的抽样分布(1) 已知(2) 未知,但两者相等,(3)当不知总体的分布形式时,n很大时,由中心极限定理推,同(1),用样本方差替代总体方差。,4、两总体方差比,5、样本成数的抽样分布,第二节 点估计 一、点估计 1、点估计是指根据总体参数的性质构造一个统计量,然后由样本资料计算出统计量的值,并直接作为相应的总体参数值的替代。 2、常见的用样本均值、方差、成数作为总体均值、方差、成数的估计值。 3、缺点,第三节 区间估计 一、含义 1、用样本统计量的两个估计值所构成的一个区间
18、估计总体参数。 (1)区间估计不仅要有具体结果,还要有精度及可靠程度; (2)估计的置信度或概论保证程度; (3)置信度与估计精度。,二、区间估计原理 以总体均值的估计为例 (1),三、例题 例4.1、一家袜厂的原料之一加弹尼龙来自甲、乙两家工厂,为了估计甲乙两厂提供的产品的拉力强度的差异,从甲厂随机抽取了25个样品,从乙厂抽取了16个样品,测试结果,甲厂产品的平均拉力强度为22千克,乙厂产品的平均拉力强度为20千克,根据过去记录,两个工厂产品的拉力强度的方差均为10,要求以95%的把握对两厂产品拉力强度的差异情况做出判断。,解:m=25 ,n =16, , , 1- =95%即(0.016,
19、3.984),在95%的概率保证下,甲厂产品的拉力强度大于乙厂,不超过4千克。,例4. 2、某教育研究机构为了了解男女学生高考数学成绩的差异程度,随机从参加高考的男女学生中分别抽取了61人和121人,调查资料得出:男生女生数学考试成绩的方差分别是73和84,试以95%的概率推断 的置信区间。,解:m=121 ,n =61, =84, =73, 1- =95% 假定男、女生成绩服从正态分布,统计量服从的分布是:=0.05,查表, (120,60)=1.58, (120,60)=1/ (60,120)=1/1.53 代入上式,得区间估计为(0.57,1.37)。,第四节 样本容量的确定 一、决定样
20、本容量的因素 1、总体方差 2、允许误差 3、概率保证程度,4、以总体均值的估计为例:设=,例,第五章 参数假设检验,第一节 参数假设检验的基本原理和步骤 一、参数假设检验的含义 1、问题的提出 2、这类问题特征 3、两个假设的提出 4、对总体假设的类型,二、假设检验的基本原理 以实例说明。 例5.1、某旅游机构根据过去资料对国内旅游者的旅游费用进行分析,发现在10天的旅游时间中,旅游者用在车费、住宿费、膳食及购买纪念品等方面的费用是一个近似服从正态分布的随机变量,其平均值为1010元,标准差为205元,而某研究所抽取了样本容量为400的样本,作了同样内容的调查,得到样本平均数为1250元。能
21、否根据样本的平均数1250元,推断认为总体平均数是1010元呢?,1、H0:=1010; H1: 1010 若H0为真,则从XN(1010,2052)中抽取容量为400的样本,则 N(1010,2052/400) ,则N(0,1) 代入样本值有,2、Z=23.4相当于随机变量的一个取值。 3、小概率事件在一次试验中几乎不可能发生。 4、误判 5、P值规则。,第二节 常见的参数假设检验 一、样本均值统计量的抽样分布。 总体XN(,2),n, H0: = 0; H1: 0; (1)总体方差已知 H 0成立时,拒绝域,(2)总体方差未知 H0成立的条件下,拒绝域, (3)总体分布未知,大样本,同(1
22、),二、两个总体均值差的检验(1)两总体方差已知 H0成立时,拒绝域,(2)两总体方差未知,但相等 在H0成立的条件下,拒绝域(3)总体分布形式未知,大样本,同(1),三、单个正态总体方差的检验在H0成立的条件下,拒绝域2,四、两个正态总体方差比的检验在H0成立的条件下,拒绝域F,五、单个总体成数的检验 1、拒绝域,六、两个总体成数差的检验拒绝域,第三节 假设检验的其他问题 一、单侧检验 1、单侧检验指拒绝域在样本统计量分布的一侧。(1)若 ,则对于显著性水平 ,有(2)若 ,则因为 是总体均值,所以对于给定的显著性水平 ,有,当是概率更小的事件。 2、H0中不管出现什么符号,均按等号处理。,
23、二、参数检验的两类错误 1、“以真为假” 2、“以假为真” 3、给定的原则,三、实例 例1、已知某炼铁厂的铁水含碳量服从正态分布N(.40,0.052),某日测得炉铁水的含碳量如下: 4.34 4.40 4.42 4.30 4.35 若标准差不变,该日铁水含碳量的均值是否显著降低(取 =0.05)?,解:已知=4.40,=0.05,n=5,=0.05,设提出假设: : =4.40, : 4.40 选取统计量- 0.05,拒绝原假设。,例2、一所学校正在考虑修订下一年的学校用车服务合同,结合诸多情况的分析,初步确定学校只能在A和B 两个汽车出租公司中选择其中的一个。假设我们以运送或到达的时间方差
24、作为衡量这两个公司的服务质量的标准。如果两个公司的时间方差相等,那么就要考虑能够以较低价格出租的那个公司,如果两个公司的时间方差明显不同,那么就要考虑选择一个时间方差比较小的公司进行合作。为了找到决策的事实依据,该学校对过去这两个汽车出租公司的行驶和服务时间进行了调查。对A公司做了25次观察,得到它的时间方差为48,对B公司做了16次观察,得到它的时间方差为20。试在显著性水平为0.1的条件下,对两个出租车公司的服务时间差异进行假设检验。,解:已知 nA=25, SA2=48, nB =16 , SB2=20,=0.1F=代入样本值,得F=48/20=2.4 在0.1显著性水平下,查表得 F0
25、.05 (24,19)= 2.29, F0.05 (24,19)=)=1/ F0.05 (19,24)=1/2.03=0.49,例3、为了了解男性与女性对公共场所禁烟立法的态度,现随机调查510名男性,有16%的人赞成公共场所禁烟立法,被调查的324名女性中,有29%的人赞成禁烟立法。问男性与女性对公共场所禁烟立法的态度是否存在明显的差异。(=0.05),解:已知n =510,px =16% ,m =324 py=29% =0.05 =0.05,本题是左侧检验,查表得z0.05=1.65, -4.33-1.65,拒绝原假设。,第六章 方差分析,第一节 方差分析的基本理论 一、问题的提出 1、例
26、子 2、方差分析:在若干个能够相互比较的资料组中,判别各组资料是否存在差异以及分析差异原因的方法和技术。,3、有关术语 试验指标 试验因素 试验水平 试验次数 单因素方差分析和两因素方差分析,二、方差分析的假定条件 1、因素A的每个水平 XjN(j,2),j=1,2,r2、Aj下的任意观察值Xij Xij= j+ij, i=1,2,n;j=1,2,r3、ijN(0, 2) Xij N(j, 2),三、方差分析的基本思想 1、组内数据差异 2、因素是否会对结果有影响就转化为各组均值是否相等 3、分析方法:通过方差的比较来实现对均值的比较。,第二节 单因素方差分析 一、单因素等重复方差分析 1、分
27、析框架 因素的每个水平做相等次数的试验; XjN(j,2),j=1,2,rXij= j+ij; i=1,2,n;j=1,2,rijN(0, 2)Xij N(j, 2),2、总离差平方和及组内、组间离差平方和,令:总离差平方和:组间离差平方和:组内离差平方和:ST2=Sb2+Sw2,3、样本统计量的分布拒绝域,例1、在电解铜工艺中,电流强度、电解液配方和浓度、设备水平等,对电解铜的纯度有很大影响。为考察电流强度的作用效果,将其他因素固定起来,分别在五种电流强度下各做五次试验,观察一小时内得到的电解铜的杂质率数据如表所示:(见书),解:已知r=5,n =5, =0.05不完全相等F0.05(4,2
28、0)=2.87 F=6.3262.87,拒绝原假设,电流强度对电解铜杂质率有显著影响。,二、单因素不等重复方差分析 A因素的各水平下所做的试验次数不完全相等 1、离差平方和,2、样本统计量的分布,3、例题: 某公司为进一步激励销售人员的工作热情,正筹划实行新的分配办法,拟定采用的做法是对新近招聘进来的销售人员实行佣金制,对工作满五年的员工采用佣金加固定薪金,对工作满八年以上的销售人员基本实行固定薪金方案。不知这样的分配办法是否能达到促进销售的目的,为此,主管部门考虑进行跟踪观察一段时间,然后再正式决定。从各个分配方案的人员中,按随机原则抽取一定的人员,登记一个月的销售量(单位:万元),具体资料
29、如表所示: 试在显著性水平=0.05的要求下,分析不同的分配方法是否会对产品销售量有影响。,解:已知 r=3 n1 =6 n2= 9 n3=5不完全相等F=0.05,F0.05 (2,17)=3.59, F=4.683.59,拒绝原假设,说明不同分配方法对销售人员的销售量有显著影响。,第三节 两因素方差分析 一、无重复两因素方差分析 1、分析框架,2、总离差平方和的分解,令:,3、样本统计量的分布拒绝域,例:某水生植物研究所想确定植物养料处理和水温处理对用作色拉的小型红色西红柿重量(单位:克)的影响,得到的数据资料如表所示:试在显著性水平0.05条件下,检验水温和养料对西红柿的重量是否有显著性
30、影响。,解:本例是无重复两因素方差分析,提出假设为: H0A:因素A对试验结果影响不显著 H1A :因素A对试验结果影响显著 H0B :因素B对试验结果影响不显著 H1B :因素B对试验结果影响显著 已知 r=4,s=3,F0.05(3,6)=4.76,F0.05(2,6)=5.14 FAF0.05 (3,6) 6)=4.76, 拒绝原假设 FBF0.05 (2,6)=5.14,接受原假设。 水温对西红柿重量的影响高度显著,而养料对西红柿重量没有显著性影响。,二、等重复两因素方差分析 1、交互作用 2、分析框架,3、离差平方和的分解,令:,4、样本统计量的分布,例:为了研究3种不同的工艺方法和3种不同的灯丝配方对灯泡寿命的影响,对每种水平组合进行了两次试验,得到的数据如表所示。试在显著性水平0.05条件下,分析工艺方法和灯丝配方对灯泡寿命是否有显著影响。,解:本例属于等重复两因素方差分析,提出假设 H0A :因素A对试验结果影响不显著 H1A :因素A对试验结果影响显著 H0B :因素B对试验结果影响不显著 H1B :因素B对试验结果影响显著 H0AB :因素A与B搭配对试验结果影响不显著 H1AB :因素A与B搭配对试验结果影响显著 已知 r=3,s =3,l =2,计算得:,