1、第九章 统计分析,一、统计分析概述,1、定义统计分析就是运用统计学方法对调查得到的数据资 料进行定量分析,以揭示事物内在的数量关系、规律和 发展趋势的一种资料分析方法。,2、统计分析的作用(1)统计分析的方法提供一种清晰精确的形式化语言,对资料进行简化和描述(2)统计分析是进行科学预测、探索未来的重要方法。人们对社会现象进行调查,首先要了解社会现象是什么状态,接着要回答为什么会出现这种状态,找出其中的规律,然后再根据过去和现在的实际资料,运用科学知识,探索今后的发展趋势,并作出估计和判断。(3)对变量关系进行深入分析,通过样本推论总体。,3、统计分析的特点(1)统计分析要以定性分析为基础在定性
2、分析的基础上进行统计分析是保证正确使用统计分析的必要条件。这是因为:A、统计分析是根据数据资料进行的,而社会调查中的数据不是抽象的数字而是反映了事物属性的统计指标。定性分析要为定量分析规定方向,划分范畴。B、统计分析是依据一定公式计算的,公式的选择依赖于一定的理论知识、专业知识和必要的经验。事实上在定量分析开始之前已经通过定性分析,从理论和经验上判明了事物之间的联系,决定了要采用的公式。,(2)统计分析方法必须和其他分析方法结合运用统计分析方法还必须和其他分析方法结合运用才能更好地发挥作用。其原因是:A、数量关系只是客观事物存在的诸种关系的一种,而不是全部。统计分析方法不是万能的,它有自身独特
3、的长处,也有无法克服的局限性,它不能代替其他分析方法。 B、统计分折方法能够帮助发现社会现象中不易察觉的规律,但对规律的解释要借助于有关学科的理论。,(3)统计分析有一套专门的方法和技术统计学是对社会现象作定量研究和分析的科学武器;计算机技术是进行统计研究的技术工具;统计分析的数字成果是运用数字模型来描述、解释、预测社会现象。模型就是把实际问题提炼为数学问题,用适当的数字方程式表达出来。,二、单变量统计分析,(一)集中趋势分析,集中趋势就是一组数据的代表值,它用一个典型值 代表变量所拥有的所有数据。这样一个典型值就称为集中趋势统计量。按处理方法不同可分为几类,主要包括:众值、中位值、均值等等。
4、1、众值(众数),用Mo表示。主要用于定类测量。在众多数值中,出现次数最多的一个数值。(1)原始资料,求众值例如:2,3,5,5,5,6,6,7,9。出现次数最多的是5。,(2)次数资料,求众值 例如:江村女青年找对象的标准:,其次数最多的为人品122人次,所以Mo=人品。,(3)分组的频数表中,众值是比较容易确定的:频数最大的区间的组中值点就是众值。例如:这表中频数最大为10,对应的区间是。60一64,其组中值是62,所以,众值62,2、中位值(中位数),用Md表示。主要用于定序测量。定序层次:其意义为,按大小顺序排列,处在一群数据中央位置的数值。(1)原始资料,求中位值例如:有9个人,他们
5、的月工资分别如下:47,42,50,51,92,112,71,83,108。首先从小到大排列,42,47,50,51,7l,83,92,108,ll2。第二,求中央位置,Md的位置N+1/29+1/25( )第三,求中位值,Md71所以,对于定序变量而言,用中位值来表示集中趋势的统计量。,(2)根据次数、频数资料来求中位值例如:某校600名学生成绩 这是定序变量,因为甲乙丙丁。次序已经排列好了;求中央位置,600为偶数,N+1/23005,然后顺着累计次数找到第300.5所在的组,就是中位数;中位值则=乙。,(3)组距分组次数资料求中位数将数据归类列成次数分布表,它的中位数计算较为复杂,但基本
6、原理仍为一样。下面我们通过实例来说明怎样求得中位数。例如:现有如下所列的资料:,应先用公式 确定中位数所在组的位置,然后用下限公式计算中位数的值。,3平均值(平均数),也称均数或均值。用 表示。主要用于定距、定比测量。,(1)算术均数一群数值的总值和除以个案数目所得的结果,称为算术均数。(主要用于原始资料),例如:调查10个核心家庭,其子女数为:1,1,1,2,2,2,2,2,3,3。,(2)加权算术均数当使用第二手资料的统计表计算平均数的时候,要用加权平均数法进行计算,其计算公式为; 其中f为权数,即变量在总体中出现的次数。按照数据资料形式的差异,还可以把加权平均数的计算分为由单项分组资料求
7、算术平均数和由组距分组资料求算术平均数两类。,A、由单项分组资料求算术平均数它的公式和加权算术平均数的公式一致。变量X的每一个值都是单一的确定数值,所以称它为单项分组。通过表121的例子可以看出,其计算过程如下:,B、由组距分组资料求算术平均数如表122。 要先计算出组中值,然后再使用加权算术平均数的公式进行计算。,组中值的符号为Xmid,其计算公式是:那么由组距分组资料计算算术平均数的公式就变为 根据表122的资料计算该厂月平均工资数,(二)离散程度分析,集中趋势(众值、中位值、均值)表示着一组数据的典型 情况,但在实际上,各个数据之间仍然存在着差异,它不足 以说明和概括这组数据的全貌。例如
8、:有三个分布,各含有五个数值,其内容如下: 三个分布的集中趋势都相同,都等于80。,但每个分布各项目对中央趋势的离散有所不同。甲分布中,五个数值都相等,并无离势;乙分配中,各个数值,稍呈分离;丙分布中,则各数值的分散很大,对集中趋势离散程度最大,这就涉及到离散程度。反映数据对于集中趋势的偏离程度的统计量就叫做离散程度统计量。换言之,离散程度表示一组数值的差异情况或离散程度。集中趋势的代表性如何,要由离散程度来表明。凡离散程度愈大,集中趋势的代表性愈小(如丙);离散程度愈小,则集中趋势的代表性愈大(如乙)。这种离散程度就是与集中趋势有关的衡量分散程度的度量值。,1、异众比率:用VR表示。主要用于
9、定类层次。所谓异众比率,就是非众值次数与全部个案总数的比率。,例如:研究某校生物系和化学系学生父亲的职业对生物系学生来说:Mo农民;对化学系学生来说:Mo农民。他们的集中趋势都是农民,但是,异众比率却不同 结论:某校化学系学生父亲职业的差异(或分散程度)比生物系学生大。,2、四分位差用Q表示。主要用于定序层次和定距层次。先将一组数 据按大小排列成序,然后将其四等分,去掉最高的1/4和最 低的1/4,仅就中间的一半数值来求其差异作为离散量数, 就是四分位差。,(1)对定序类型资料计算的四分位差。这时的计算公式应是:Q=Q3Ql以表123的资料为例,首先要找出Q3、 Q1的位置Q3的位次第66个数
10、据的标志值在“初中”组内,所以Q3值为初中;Q1的位次第22个数据在“小学”组内,Q1值为小学;那么Q=Q3一Q1=初中一小学,这一结果显示了在87名农村青年中,处于中间的50的人其文化程度在初中到小学之间。四分位差之间的间距越小,中位数的代表性越大。,(2)对于分组资料计算四分位差公式是 以表124的资料为例,首先要确定Q3和Q1的位次。,所以Q3落在70一80元组内,Q1落在50一60元组内。再求出Q3和Q1的数值,其方法与求中位数大致相同。这个值告诉我们该厂的1000名工人中,在中间的50工人中其月工资收入落在575元到725元之间。也就是说,月工资收入在65元土75元的区间包括了该厂工
11、人数目的一半。,3、标准差标准差又叫做均方差,是指资料中各个数值与算术平均数相减之差的平方和的算术平均数的平方根。它是用得最多、也是最重要的离中量数,其符号为,计算公式为 :其中Xi为资料中的各个数值,为算术平均数, n为总体数。根据数据资料的形式不同,标准差仍分为按原始资料计算和按统计表资料计算两种方法。,(1)根据原始资料计算标准差根据原始资料计算标准差使用上面给出的公式。例如:有10个家庭每个月比前两年增加开支的情况是: 85,63,50,46,37,34,28,25,22,20。首先,计算10个家庭平均每月增加支出多少? 第二,计算标准差: 这表示,这10个人家,每个月增长消费支出的标
12、准差是195。假如有另10户人家,其标准差是78,在这种情况下,19578。说明前10户人家支出的分布比较分散,用的多的很多,节省的人家十分节俭。而后10户人家则支出比较平均。因此,标准差越大,表示分布越分散;而标准差越小,表示分布越集中。,(2)根据统计表资料计算标准差在统计表资料中,根据资料形式的不同,标准差仍分为由单值分组资料计算标准差和由组距资料计算标准差。A、由单值分组资料计算标准差由单值分组资料计算标准差的公式: 见表121中的资料,前面已求出平均数是35人。,列表计算标推差如下:这一结果实际意义是:这个地区的家庭人口相对于家庭平均人口35人的水平,其标准差是119人。,B、由组距
13、分组资料计算标准差由组距分组资料计算标准差的公式是:其中Xmid是指各组的组中值。使用表122的资料,前面已经求出它的平均数是653元。,列表计算标准差 这一计算结果说明该工厂工人工资的标准差是1162元。差异量数在描述一组资料的差异程度,或在比较两组单位相同且平均数不相上下的资料的差异程度时,是很有价值的。,4.离散系数,标准差与平均数的比值称为离散系数或变异系数,记为C.V CV(Coefficient of Variance):标准差与均值的比率。 用公式表示为:CV/ 。,三、推论统计简介,(一)推论统计一般概念,推论统计分为两大类:参数估计:根据一个随机样本的统计值来估计总体之参 数
14、值是多少。假设检验:首先假设总体的情况是怎样的,然后以一个 随机样本的统计值来检验这个假设是否正确。也就是,要 先构思总体的情况,再进行抽样和分析样本的资料。,(二)参数估计,1、点值估计与间距估计以样本的统计值来估计总体的参数值,有两大类:一 类是点值估计,另一类是间距估计。二者都要求样本是以 随机方法抽取的。(1)点值估计,就是以一个最适当的样本统计值来代 表总体的参数值。例如,我们要知道某地的青年人有多少是赞成一胎化的政策,可以 从该地区抽取青年人的样本,假定发现样本中有60是赞成,我们 便说整个地区约有60的青年赞成一胎化的政策。一般来说,如果样本愈大和抽样的方法愈严谨,这种 估计方法
15、愈可信。,(2)间距估计:是以两个数值之间的间距来估计参数值。至于间距的大小,要取决于在估计时所要求的可信程度是多少。在样本大小相同的情况下,如果要求的可信度愈大,则间距就会愈大。这个间距称为“可信间距”。例如,从样本中算出有60的青年赞成一胎化,在估计总体中的百分率时,如果所要求的可信程度是95,则可信间距就是介于55与60这两个数值之间。换言之,我们的估计是:总体中赞成一胎化的比率是介于55与65之间;这个估计的可信程度是95。假定所要求的可信度改为99,则可信间距便要扩大如介于53与67之间。间距的大小与可信度的高低成正比。,2、均值的间距估计如果所要求的可信度是95间距,可用下面的公式
16、来计 算可信间距:其中X是样本的均值,SE是标准误差,S是样本的标准差,N是随机样本的大小。,例如,要估计某地区青年人的平均工资(M),所抽取的一个样本是:N225人,X430元,S105。如果要求的可信度是95,则:可信间距的大小与样本的大小是成反比的。样本愈大,其代表性一般是愈大,因此在估计时就可用较小的间距。换言之,在固定可信度以后,只要将样本加大,就可以得到较小的间距,使我们的估计更加精确。,3、百分率(或比例)的间距估计如果要求95的可信度,则计算可信间距的公式是:其中P是样本中的比例(即百分率),SE是抽样分布的标 准误差,N是随机样本的大小。,例如,要估计某城镇有多少家庭是夫妻不
17、和的。从一个随机样本(N100)中知道有20的家庭不和即P20020。如果要求的可信度是95,则:由此可见,在该城镇的全部家庭中有12至28的家庭是夫妻不和的,而这个估计的可信度是95。如果要求的可信度是99,则: 可见该城镇的夫妻不和家庭所占的比例介于10与30之间。相对之下,也可见到99的可信间距是大于95的可信间距。,(三)假设检验,假设检验是对未知总体先作出某种假设,选 取适当样本,根据样本观察的数据来检验原假设 是否正确,以决定是接受还是拒绝原假设。,1、假设检验的基本概念(1)研究假设与虚无假设研究假设是经过探索性研究而作出的假设,用H1表示。虚无假设是与研究假设相对立(相反)的假
18、设,用H0表示。例如,经初步研究认为,某地老人的月均生活水平已 超过若干年前的平均数300元,这就是研究假设。虚无假设则与此相反,认为老人现在的生活水平没有 超过或等于以前的300元。,设立虚无假设是检验研究假设能否成立的必不可少的手段。上例中,如抽样调查的结果是,老人的月均生活水平已越过300元,那么还不能肯定研究假设正确。因为从总体中抽取样本,不可避免地存在误差,样本结果有可能是由抽样误差造成的。因此要对研究假设作出肯定,必须设法否定抽样误差。抽样误差是建立在总体内月均生活水平低于或等于300元基础之上的,即建立在虚无假设的基础之上,如果能够否定虚无假设,也就可以否定抽样误差,从而表明研究
19、假设可能成立。,(2)否定域与显著性水平否定域是指在抽样分布中分居两端的能够否定虚无假设H0的小区域。否定域的大小,是由显著性水平决定的。显著性水平是指否定域的概率,是研究者根据抽样资料对统计假设作出不正确结论的冒险性程度。显著水平用符号表示,它可以视研究的需要而被规定在任意的水平上。当显著水平控制在一定限度以内,如取005、001等,便可确定否定域。否定域的边界点称为临界点,两端的阴影部分面积就是否定域的概率,即显著水平。,(3)一端检验和二端检验在检验虚无假设H0时,如果否定域在抽样分布的一端,称为一端检验;如果否定域在两端则称为两端检验,即“1+2。决定选用一端还是二端检验,取决于研究假
20、设H1的方向。如H1末指明方向,用二端检验,如已知H1的方向,则用一端检验。,2、假设检验的一般步骤第一,建立研究假设H1和虚无假设H0 ;第二,规定显著水平,查表得到否定域的临界值;第三,由样本资料计算出检验统计量的具体数值(统计 值);第四,将实际计算的检验用的统计值与临界值比较, 决定虚无假设的取舍。如果统计值小于临界值,则接受虚无假设,拒绝研究 假设;如果统计值大于等于临界值,则拒绝虚无假设,接受 研究假设。,3、平均数的检验对总体单值平均数的检验,和两平均数之差的检验,在大样本情况下,用Z检验法;在小样本中则用t检验法。一般,当n30时,为大样本。当n30时,为小样本。Z检验法常用的
21、显著水平及其否定域如下:,(1)大样本方法(Z检验法)大样本平均数检验的公式是:式中0为虚无假设的总体平均数,X为样本平均值S为样本标准差n为样本数,例 设某地随机抽取100户农户进行调查,测得人均承包收入X738元,标准差S56元,这是否说明该地农户人均承包收入在700元以上,试以005的显著水平加以检验。解:建立研究假设和虚无假设。初步探索到研究假设: H1: 700;则虚无假设H0与之对立:H0:700此题指明了H1的方向,所以采用一端检验,查Z表得到在005的显著水平上的否定域为Z165(一端),而用样本资料计算出的Z值为:,(2)小样本方法(t捡验法)小样本平均数检验的公式为:例设某
22、校研究一种新的教学方法的效果。教改前,学生英语平均成绩为70分。教改后,抽取12名学生,经测定样本平均数为82分,标准差为12分。若以005的显著水平加以检验,=70分与X82分之间是否存在显著差异而说明教学改革有无效果。,此题末指明H1的方向,所以采用二端检验。又由于本题是小样本检验,故查t分布数值表,当df12111时,得到=005 (/20025)显著水平上的否定域的临界值t00522011,而由样本资料计算的t值为:,4、比例的检验以Z值为例介绍比例的检验,Z值的计算公式为:其中p为样本的百分比,P为虚无假设的百分比,n为 样本容量。,例 某地区进行晚婚情况调查,若随机抽取初婚女子l05人,测得其中42人为达到晚婚年龄后初婚女子。试以0. 05仍的显著水平检验与4年前该地晚婚率32相比,是否发生显著变化?,