收藏 分享(赏)

社会统计学讲义.doc

上传人:ysd1539 文档编号:6907404 上传时间:2019-04-26 格式:DOC 页数:54 大小:871KB
下载 相关 举报
社会统计学讲义.doc_第1页
第1页 / 共54页
社会统计学讲义.doc_第2页
第2页 / 共54页
社会统计学讲义.doc_第3页
第3页 / 共54页
社会统计学讲义.doc_第4页
第4页 / 共54页
社会统计学讲义.doc_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、社会统计学讲义教学目的和要求:通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。本课程偏重统计方法的实际应用,而非其数理基础。在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。教学重点和难点:本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。教法特点说明:课堂讲授为主,注重对实例的讲解。教材和参考书目:1、卢淑华著:社会统计学(第三版) ,北京大学出版社,2007 年。2、李沛良著:社会研究的统计

2、应用 ,社会科学文献出版社,2002 年。3、柯惠新等著:调查研究中的统计分析法 ,北京广播学院出版社,1992 年。4、风笑天著:现代社会调查方法 ,华中科技大学出版社,2001 年。5、袁方主编:社会研究方法教程 ,北京大学出版社,1997 年。第一章 统计学简史教学目的和要求:通过本章的学习使学生了解统计学的产生、发展历程有初步的认识。教学重点和难点: 重点是国势学派与政治算数学派的差异,难点是文字记述与数字记述各自的特点。教学方法:课堂讲授教学内容:一、统计学的起源统计技术:古埃及、古中国(大禹治水)统计学:17 世纪中叶 Status(拉丁词汇,国家、状态)Statistics研究国

3、家的宏观状态国势学 政治算术二、国势学(17 世纪的德国)德国大学学派:HCoring 用文字记录一个国家的状况和制度GAchenwall 第一个定义把国家的显著事项全部记录下来的学科三、政治算术(17 世纪的英国)英国的经验主义者:用数量或数字的方法说明国家的特征JGraunt 关于伦敦死亡表的观察用数量分析社会、政治问题William Petty 政治算术四、概率论(数理特征更加明显)1.J Bernoulli(贝努里) 瑞士 大数法则 借助大数法则可以从社会现象复杂不定的偶然性中寻找规律,它说明了社会现象的稳定性2.Gauss(高斯) 德国 正态分布(中心极限定理的基础)五、数理统计学A

4、dolphe Quetelet(阿道夫凯特勒)法籍比利时人数理统计学派的创始人 “经验社会学之父” 社会物理学“平均人”六、 描述统计高尔顿(F Galton) 回归现象 根据对 1078 对父、子身高的散布图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子。但平均而言,身材高大的其子要矮些,而身材矮小的其子要高些。或者说,无论高个子或矮个子的后代,都有向均值方向拉回的倾向。这种遗传上身高趋于一般,“退化到平庸”的现象,即是回归现象。卡皮尔逊(K Pearson )分布、相关、频数、皮尔逊系数七、推论统计部分整体 T 检验、F 检验第二章 社会调查研究与统计分析教学目的和要求:通过本章的学

5、习使学生了解社会调查研究的历程,明确统计分析在社会调查研究中所处的位置和作用。熟悉统计分析的具体内容,牢记统计分析方法的选择标准,能够熟练地判断应用。教学重点和难点:重点是社会调查研究的历程,难点是统计分析方法的选择标准,尤其是变量的测量层次。教学方法:课堂讲授,结合实例讲解教学内容:第一节 社会调查研究历程一、概念二、社会调查研究的历程1.确定课题课题的选择应具有一定的理论意义或应用价值,应当是社会迫切解决理论问题或实际问题就要有一定的迫切性,另外还要注意课题的可行性,以及研究者的主客观条件是否具备等。2.初步探索通过查阅文献和向有经验的,有知识的人请教或者自己进行探索性调查,搜集获取第一手

6、资料。3.建立假设差异式(如果 A 越高,则 B也越高)(如果 A 越高,则 B也越高)函数式(A 不同则 B 不同)文化程度4.理论解释和澄清概念概念的操作化:把那些通常只存在于我们头脑中的抽象概念,转化为我们看得见、摸得着,可以观察的具体指标社会地位个人在社会中的位置收入、职业、受教育程度5.设计问卷封闭式问题、开放式问题6.试填问卷7.调查实施8.资料整理:问卷的核对、登录9.统计分析与命题检验二、社会学研究的两个层次1.抽象层 :包括概念 命题 理论 2.经验层:包括观察 量度 测定 分析等两者的关系紧密相联系遵循着:理论来源于实践,而又必须受到实践的检验第二节 社会调查资料的特点和统

7、计分析的内容一、社会调查资料的特点1.随机性大部分社会现象都具有非确定性,即在某种条件下可能发生也可能不发生。2.统计规律性在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐蔽着的规律支配的,而问题就在于发现这些规律。经济地位性格开放提出离婚二、统计分析的内容描述性统计:主要介绍资料的整理,分类和简化或特征研究推论性统计:主要介绍参数估计、假设检验、回归、列联、方差、等级相关等统计技术。第三节 怎样选用统计分析方法一、调查的方式全面调查描述性统计抽样调查推论性统计二、变量因素1. 变量个数 单变量 双变量 多变量2. 变量层次 定类:最低的变量层次,取值只有类别属性之分,而无大小程度之

8、分。数学运算符表示(=、)定序:取值除了有类别属性之外,还有登记次序的差别。数学运算符表示(=、+、-、*、/) (在社会学研究中,只满足定距而不满足定比的变量很少,因而研究中不再区分定比定距,而合为一类,称作定距变量)高层次变量具有低层次变量的特性,反之不成立一个变量他的层次并不是唯一的,变量的层次与社会实际衡量之间存在着差距或不一致变量类型的划分也不是唯一的,可根据自己领域的需要来划分。第三章 单变量描述性统计分析教学目的和要求:通过本章的学习使学生能够根据变量的测量层次,选择适当的表格、图形对数据资料进行初步简化,熟练地应用集中趋势和离散趋势测量法,对调查资料进行简化分析。教学重点和难点

9、: 重点是集中趋势测量法、离散趋势测量法,难点是不同类型的统计图,尤其是直方图。教学方法:课堂讲授,辅之以实例讲解教学内容:第一节 最基本的单变量描述统计技术一、定类变量1、频次分布文字法、集合法、统计表法、统计图法2、频率分布文字法、集合法、统计表法、统计图法3、统计图条形图、圆瓣图二、定序变量累加频次、累加频率三、定距变量1、连续型变量的分组问题组数;等距分组 or 非等距分组;决定分点的精度(组限、组距、组中点) ;2、统计图矩形图 or 直方图;折线图3、曲线类型 四、统计表的制作1、统计表必须具备的内容表号、表头、标识行、主体行、表尾2、制表过程收集数据;找出极差 R=最大值 L-最

10、小值 S;确定组数;计算组距;实际分组;取中心值;统计频次,制表第二节 集中趋势测量法一、定类变量众值Mo出现次数最多的值某班男生 15 人,女生 30 人。Mo=女生二、定序变量中位值Md在一个序列的中央位置之值。高于此值的有 50%的个案,低于此值的也有 50%的个案。(一)未分组数据1、原始资料首先要对个案按照从低到高的顺序排列;其次计算中位值所在的位置 Md位置=n+1/2 ;最后查找对应的数值2、频次分布(频次分布表必须是按照由低到高的顺序排列的,而且列出了向上累加频次)首先计算中位值所在的位置 Md 位置=n+1/2;其次按照累加频次找出中位值。(二)分组数据Md 位置=n/2Md

11、=L+ 2ncfwL=中位值组之真实下限 f=中位值组之次数 w=中位值组之组距cf=低于中位值组真实下限之累加次数 n=全部个案数目三、定距变量均值将变量的各个数值相加起来,求取一个平均的数值X(一)未分组数据1、原始资料n 是全部个案数目 表示各个个案数值之和xXx2、频次分布x 是变量的各个取值, f 是每个变量值对应的次数, n 个案fn数目(二)分组数据xm 是组中心值 fXn2mULx小结:三值设计的共同目的,都是希望通过一个数值来描述整体特征,以便简化资料,它们都反映了变量的集中趋势。一般说: 众值:适用于定类、定序和定距变量; 中位值:适用于定序和定距变量; 均值:适用于定距变

12、量。它们三者的代表性决定了它们具有估计和预测的作用。 众值仅使用了资料中最大频次这一信息,因而资料使用不完全。中位值,考虑了变量的顺序和居中位置,因此和总体频次分布有关,但因为只考虑居中位置,因而其他变量值的变化很难影响中位值,它也是三个集中值中最不敏感的。均值,既考虑频次又考虑变量值的大小,因而更灵敏。它的解释力最强,具有较高的统计价值。均值虽然灵敏,但对严重偏态的分布容易失去代表性。即存在非常极端的分布值时,代表性不足。例如,一个国家会因某些少数富翁的存在,使平均收入变得很高。且在分组资料中的极端组没有组限时,不能求出均值,只能用中位值。 偏态图形和三值的关系。对于正态分布的图形来说,三值

13、是合一的。当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。第三节 离散趋势测量法一、定类变量异众比率非众值的次数与全部个案数目的比率。公式为: nfmon 是全部个案数目fmo 是众值的次数二、定序变量极差、四分位差(一)极差 R=最大值- 最小值(二)四分位差1、未分组数据(1)原始资料。14nQ位 置 314n位 置Q= 31(2)频次分布2、分组资料14n位 置 34n位 置11cfQLw334ncfQLwQ= 31= 属组之真实下限 = 属组之真实下限 1L3L= 属组之次数 = 属组之次数f fQ=低于 属组下限之累加次数 =低于 属组下限之累1c1Q3c3加次数= 属组之组

14、距 = 属组之组距1w3w三、定距变量标准差、方差(一)标准差、方差离均差 离均差之和 离均差绝对值之和 xxx /22Sn2221Sn频次分布 2 221fxfxf分组资料2 22mmfSnffn(二)变异系数/离散系数1、使用离散系数的原因2、 SCVx四、小结异众比率最适合于分析定类变项,也可分析定序、定距变项。它仅考虑频次极差、四分位差(十分位差)最适合用来分析定序变项,也可分析定距变项。极差仅仅考虑了变量的两个极端值,而四分位差考虑了变量的次序或大小。标准差(或方差)只能用来分析定距变项。由于它们的计算涉及每一个变量值,所以它们反映的信息在离散值中是最全面、最可靠的变异描述指标。方差

15、还具有可加性,能够参与进一步的统计运算。不过,也正是由于标准差和方差的计算涉及每一个变量值,所以,它们也会受到极端值的影响,当数据中有较明显的极端值时不宜使用。另外,它们在计算中实际都使用了均值,因此实际上只有均值能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,实际上方差和标准差的适用范围应当是正态分布。还有一点要说明的是,比较均值,不一定要看离散趋势,但比较标准差时,一定要看均值的情况。变异系数的计算涉及均值和标准差,因此,它也只能用于分析定距变量。它实际是对标准差的修正。离散趋势测量法和集中趋势测量法是有互补作用的。二法并用,就可以一方面知道资料的代表值,有利于估计或预测工作,另

16、一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。第四章 简化两个变量的分布教学目的和要求:通过本章的学习使学生能够对相关及其性质有初步认识,学会制作与分析列联表,明确选择相关测量法的标准。教学重点和难点: 重点是列联表、PRE 意义,难点是相关关系与因果关系。教学方法:课堂讲授,辅之以实例讲解教学内容:第一节 统计相关的性质一、什么是相关?相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个变量的值发生变化,另一个变量的值也有变化。二、相关的强度和方向1、相关强度相关系数表示变量间的相关程度的量的指标。相关系数的特征:(1)不具有实际数学运算意义,只能表示相关程度更强。

17、(2)统计相关:相关系数是统计得来的,它只能说明两种现象间可能存在一定的关联度,不一定具有实际意义,即实际上可能并不存在,这也就是我们讲的统计相关。(3)取值范围:-1,1 相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般 0 表示无相关,1 代表全相关(-1 是完全负相关,1 则是完全正相关) 。绝对值越大,说明两变量之间的相关程度越强。2、相关方向正相关:一个变量的值增加时,另一个变量的值也随着增加。收入水平-消费水平负相关:一个变量的值增大时,另一个变量的值却减小。教育水平-理想子女数目需要大家注意的是,相关方向的分析只限于定序以上层次的变量。三、相关关系的类型(按变量

18、变化的表现形式)直线相关、曲线相关直线相关:当变量 X 发生变动时,变量 Y 的值也发生大致均等的变动。散点图适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X 的取值变化范围,纵轴表示变量 Y 的取值变化范围。根据每一个个案在变量X 和变量 Y 上的值来确定坐标图中的每一个点。直线相关表现在直角坐标系中,X、Y 值所对应的点分布狭长,成直线趋势。曲线相关表现在直角坐标系中,X、Y 值所对应的点分布分散,呈曲线趋势。四、因果关系1、定义:当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之发生变化(取值也不同),但反之不成立,当后一变量变化时,不会引起前一变量的变化。自变量

19、X因变量 Y自变量变化发生在前面,并且能引起另一变量发生变化的那个变量因变量变化发生在后面并且这种变化是前边变量的变化所引起的那个变量对称关系、不对称关系2、判断条件相关关系可能包含着因果关系,但并非所有存在着相关关系的变量之间,都一定存在因果关系(相关的两个变量可能仅仅是共同变化) ,而因果关系必然是相关关系。因果关系的判断条件: 变量 X 与变量 Y 之间存在着不对称的相关关系。变量 X 与变量 Y 在发生的顺序上有先后之别。先有自变量的变化,后有因变量的变化。如果两个变量的变化同时发生,分不出先后,则不能成为因果关系。变量 X 与变量 Y 的关系不是同源于第三个变量的影响。即变量 X 与

20、变量 Y 之间的关系不是某种虚假或表面的关系。第二节 交互分类与百分表一、定义交互分类,就是同时依据两个变量的值,将所研究的个案分类。交互分类的结果通常以交互分类表(又称列联表)的形式反映出来。列联表适用于对两个定类变量(或一个定类、一个定序变量)的分析。边缘次数、条件次数(在自变量的每个值(条件)的情况下依变量的各个值的个案数目。 )二、列联表制作准则1.每个表的顶端要有表号和标题。2.绘表时所用的线条,要尽可能简洁。3.百分号的简便处理。4.列出边缘次数。5.表内百分率数值的小数位要保留多少,取决于研究的需要,但前后要保持一致性。6.如何安排交互分类的两个变量。自变量放在表的上层,将因变量

21、放在表的左侧。表的大小=横行数目(r)*纵列数目(c ) 。7.交互分类中两个变量的变量值应有所限制,不宜太多。三、百分率的计算一般的原则是:根据自变量的方向。如果依变量在样本内的分布不能代表它在总体内的分布,则百分率的计算要依据依变量的方向。第三节 简化相关与消减误差相关测量法以一个统计值表示变量与变量之间的关系。一、相关测量法的选择标准1.测量层次定类-定类;定序- 定序;定距-定距;定类- 定序;定类-定距;定序-定距。2.对称关系3.统计值的意义,一般选用具有 PRE 意义的测量法。二、消减误差比例 PRE PRE=(E 1-E2)/ E 1E1不知道 X 值时,预测 Y 值时所产生的

22、全部误差E2依据 X 值预测 Y 值时所产生的全部误差E1E2依据 X 值预测 Y 值时所减少的误差PRE 的数值越大,就表示以 X 值预测 Y 值时能够减少的误差所占的比例越大,也就是说,X 与 Y 的关系越强。PRE=1,X 与 Y 是全相关;PRE=0, X与 Y 之间无相关。PRE 数值的意义,就是表示用一个现象(如变量 X)来解释另一个现象(如变量 Y)时能够减除百分之几的错误。三、2*2 表(佛爱)系数和 Q 系数1. 系数(佛爱)adbcdad=bc 时,=0 ,两个变量相互独立。a=d=0 (或 b=c=0) , 。如果1a*d 与 b*c 的差异越大,就表示相关程度越强。2.

23、Q 系数abcd 中有一个为 0,则adbcQ1Q第五章 相关测量法与测量层次教学目的和要求:通过本章的学习使学生能够熟练的依据变量的测量层次,变量是否对称以及是否具有 PRE 性质,选用适当的相关测量法,以判断变量间的相关程度。教学重点和难点: 重点是两个定类变量、两个定序变量以及两个定距变量相关关系的分析,难点是简单线性回归。教学方法:课堂讲授,辅之以实例讲解。教学内容:第一节 两个定类变量:,一、 相关测量法1、基本逻辑y x x1 x2 xc n*jy1 n11 n21 nc1 n*1y2 n12 n22 nc2 n*2yr n1r n2r ncr n*rni* n1* n2* nc*

24、 n不知道 x 值时,预测 y 值所产生的误差 (n 为全部个案数1*maxjE目, 是 y 变量的众值次数,即最后一列中的最大值)*maj根据 x 变量预测 y 变量所产生的误差 E2。x=x1 时, y 的众值次数为 1maxjnx=x2 时, y 的众值次数为 2jx=x3 时, y 的众值次数为 3ajx=xc 时,y 的众值次数为 xcjn+ + + = 1maxjn2j3maj axcjn( 是 x 变量的每个值之下 y 变量的众值次数之和,体现在ciji=1maxn ciji=1an列联表当中就是每列最高次数之和)PRE= =c2iji=1aE 12E= ycc*ij ij*i=

25、1i=1*mxxnmaxn aj jj jn用 y 变量预测 x 变量的 x=* *11*aaxaxmmrri ij ijij ji innn分析对称关系的 系数( x 变量的众rcijij*j=1=1*axnaxnax2ijijn*ain值次数, =y 变量的每个值之下 x 变量的众值次数之和,体现在1marijj列联表中就是每行最高次数之和。 ) 相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。2、取值范围0,1x 与 y 无关时,边缘频率分布等于条件频率分布即 ,3112*1*n 322*2*n y=01maxcijji

26、x 与 y 全相关时,各列及各行都只有一个不为 0 的频次值n= , y=1。在 0 到 1 之间, y 越大表示两个变量越相关。1acijin3、使用条件如果全部众值集中在条件次数表的同一行或同一列中,则 系数等于 0,此时其敏感性可能存在问题。二、 相关测量法1、基本逻辑:不再以众值作为预测的准则,而是充分考虑边缘分布、条件分布的情况进行预测。基本公式: 1()ynFE2()xf= 12E其中 =样本容量 f=某条件次数n=Y 变项的某个边缘次数 =X 变项的某个边缘次数yFxF2、取值范围:0,1x 与 y 无关时, , ,此时,3112*1*n 322*2*n=0;当 x 与 y 全相

27、关时,各列及各行都只有一个不为 0 的频次值,由此推导得出 =1 。3、使用条件: 系数适用于对两个定类变量不对称关系的测量,它同样具有消减误差比例的含义。在各变量值比例失调的情况下慎用。三、小结与讨论 系数, 系数,均以消减误差比例为基础,而且在计算过程中依据的都是列联表形式。列联表中各列的众值处于同一行时, 系数永远为 0,无法准确说明两变量之间的相关关系。此时需要选用 系数。但在各变量值比例失调的情况下慎用 系数。几率比第二节 两个定序变量等级相关法:目的在于分析两列等级的关系,即研究变量之间的等级是否存在着联系。一、斯皮尔曼等级相关系数 rs1.基本逻辑丈夫的家庭地位为变量 x,妻子的

28、家庭地位为变量 y同样分为五类:1.很低;2.较低;3.一般;4.较高;5.很高。通过调查发现,这五对夫妇的家庭社会经济地位如下:(1,2) (2,3) (3,4) (4,5) (5,1)完全正等级相关、完全负等级相关设样本容量为 n,变量 x 共有 n 个等级,分别为 x1,x2,x3,xn,变量 y 也有 n个等级,分别为 y1,y2,y3, ,yn。假设每一个个案对应的 x 值、y 值为:(x 1,y 1) (x 2,y 2)(x 3,y 3)(x n,y n) 。它们等级差的平方分别为:(x 1- y1) 2=d12(x 2-y2) 2=d22(x 3-y3) 2=d32 (x n-y

29、n) 2=dn2斯皮尔曼等级相关系数26(1)isdrn2、取值范围-1,1完全的正等级相关:x 1= y1;x 2=y2;x 3=y3;x n=yn,此时 rs=1。完全的负等级相关:(x 1,y 1)=(1,n);(x 2,y 2)=(2,n-1);(x 3,y 3)=( 3,n-2) (x n,y n)= (n,1)rs=-1221idn列联相关与等级相关的区别:列联相关表示两个变量的类别、属性是有关的。根据其中一个变量的类别,我们可以预测另一个变量的类别。而等级相关,表示两个变量之间的等级次序是有关的。根据其中一个变量的等级可以预测另一个变量的等级。二、Gamma 等级相关1、基本概念

30、设个案 A 变量 x 和 y 的取值分别为 xi,yi,个案 B 对应的变量值分别为 xj, yj, 如果有: , 或 , 则称 AB 为同序对。ijijijijy, 或 , ,则称 AB 为异序对ijxijyijxij则称 AB 为 X 变量同分对,ijij则称 AB 为 Y 变量同分对ijijxy则称 AB 为 X,Y 变量同分对,ijij2.基本逻辑: 设有两个定序变量 x、y。个案 A(x i,yi) ;个案 B(x j,yj)不知道 x 与 y 存在等级相关时,若同序对数为 ns,异序对数为 nd(注意,这里我们不考虑同分对的情况,所以 ns+nd 即为总对数) ,则误差 。12sE

31、当知道 x 与 y 之间存在等级相关,则此时的误差 2dN则 PRE= =12E2sdsdsdssnnGamma 相关系数就是根据任何两个个案在某变量上的等级来预测它们在另一个变量上的等级时可以减少多少误差。换言之,它是以每对个案之间的相对等级作为预测的准则。3.取值范围 -1,14.利用列联表计算 ns、n dy x 高 中 低高 n1 n4 n7中 n2 n5 n8低 n3 n6 n9ns= n1*(n 5+n6+n8+n9)+ n4*(n 8+n9)+ n 2*(n 6+n9)+ n 5*n9nd= n7*(n 2+n5+n3+n6)+ n 4*(n 2+n3)+ n 8*(n 3+n6

32、)+ n5*n3不管列联表如何变化,不管它的 r 是多少,c 是多少,计算同序对数、异序对数的方法都是一样的。在列联表中,同序对、异序对互为对角线,x 或 y 的同分对,在同列或同行,x、y 的同分对为自身的排列组合。三、其他等级相关系数1、肯氏 系数12sdansdbxynnT1T2Tx 表示变量 x 的全部同分对数,T y 表示变量 y 的全部同分对数。如果出现x 和 y 变量都同分的情况,则既要归入 Tx,又要归入 TyTx= Ty= 2tii1Ct2tjj1Ctm 为 r*c 列联表中 r 和 c 值中较小者2/sdcn四、dy 相关测量法及其适用条件分析不对称关系ny:只在依变量上同

33、分的对数 sdyyn第三节 两个定距变量:简单线性回归与积矩相关一、简单线性回归1.概率与概率分布确定性现象和非确定性现象(随机现象)随机现象:非确定性、统计规律性统计规律性是指在一定条件下,就其个别一次的结果来说都具有偶然性,但大量重复的试验或观察,则其结果无不呈现必然的规律性。概率论恰恰是要研究随机现象的这种统计规律性。概率(P)则是这种统计规律性的数量表现。随机事件随机现象的结果以及这些结果的集合就称作随机事件,或简称事件。概率分布,则要说明随机现象一共有多少种结果,以及每种结果所伴随的概率是多少。=“访谈三户中核心家庭数”它对应了 4 个取值X1 表示访谈结果为 0 户核心家庭、3 户

34、非核心家庭, X2 表示访谈结果为 1户核心家庭、2 户非核心家庭,X 3 表示访谈结果为 2 户核心家庭、1 户非核心家庭,X 4 表示访谈结果为 3 户核心家庭、0 户非核心家庭。频率、概率;频率分布、概率分布频率分布是实验值或观测值,是我们调查所获的的结果,它是可以变化的。而概率分布是理论值,是唯一的。它是事物客观属性的数量表现。简单来说,频率分布反映的样本的情况,概率分布反映的是总体的情况。频率分布又称随机变量的统计分布或经验分布,而概率分布则称作随机变量的理论分布。只有当观测次数很大时,即样本容量很大时,随机变量取值的频率接近其概率,这时随机变量的频率分布与概率分布将大致相符。2、回

35、归分析的对象回归分析所研究的就是定距变量与定距变量之间的非确定关系,而且,它主要用于研究相关中的因果关系。所谓两变量间存在相关关系,意味着它们之间存在的是一种非确定性关系。或者说,它们存在统计规律性。我们可以采用这种方法来描述相关关系:设有两个变量 x 和 y。当 x 变化时会引起 y 相应的变化,但它们之间的变化关系是不确定的。如果当 x 取任一可能值 xi 时,y 相应地服从一定的概率分布,则称随机变量 y 和变量 x 之间存在着相关。3.回归方程与线性回归方程散点图适用于定距以上层次的变量,它可以用于表示两变量间的相关关系。它是以直角坐标系的横轴表示变量 x 的取值变化范围,纵轴表示变量

36、 y 的取值变化范围。根据每一个个案在变量 x 和变量 y 上的值来确定坐标图中的每一个点。散点图具有这样一个特点:即对于一个确定的 xi 值,y i 的值不是惟一的,yi 是随机变量。y 对 x 的回归方程 :E ( yi)=f (x i) (E(y i)表示当 x=xi 时,y 的均值,f(x i)则是数学中函数表达式的一般写法) 。线性回归方程 (y)=+ x( 回归常数, 回归系数) ;曲线回归方程每一个真实的依变量值 yi 与回归线间都有一定的关系,我们可以用式子yi= +x i+ei 来表示。其中 ei 是随机误差。它的值是非固定的,因此 x 与 y 之间呈现非确定的关系。4.回归

37、直线方程的建立假设从总体中随机抽取一个样本,其抽样结果为:(x 1,y 1) (x 2,y2)(x 3,y3)(x n,yn) 。y= a+bx(x i,y i) = a+bxiiyQ=i22iiyabx斜率 2 22xynybx截距 ybayxn回归分析是指对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似的表示变量间平均变化关系的一种统计分析方法。采用的方法配合其直线或曲线形态采用回归直线或回归曲线,对应的方程式称为回归直线方程或回归曲线方程。二、积矩相关测量法1.基本逻辑不知道 x 值, ,E 1=y2()y知道 x 值,预测、估计每个 y 值时,以线性回归方程( )

38、作为准ybxa则,这样预测所犯的误差是 ,因而所消减的误差是 ( )= E1-E2=y2()yPRE =221() r2( x-) (y)()2222nxyyrr 系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误差比例。第四节 定类变量与定距变量:相关比率与非线性相关一、基本逻辑一个定类变量 x,一个定距变量 y。不知道变量 x 时, E1= 2知道变量 x 与变量 y 有关之后, ,22iyPRE= 。22 iy2iny-每个自变量取值的个案数目。 表示 y 变量的均值, 表示 x 变量每个in i取值之下,y 变量的均值。E20,1二、例题三、两定距变量的非线性相关相关比率

39、还可以用来分析两个定距变量之间的非线性关系。之前,我们说过,简单线性回归与积距相关系数 r 都假定变量 x 与变量 y 之间具有直线的关系。如果,这项假定不符合实际情况,利用简单线性回归和积距相关系数 r 就会犯错误。第五节 定类与定序变量、定序与定距变量一、定类与定序变量1、威尔科森的区分系数(theta 系数)基本逻辑是根据各个个案在定类变量上的类别来估计它们在定序变量上的相对等级。取值范围:0,1 。不具有 PRE 意义。2、Lambda 或 tau-y 系数二、定序与定距变量贾斯彭的多序相关系数分析对称关系的相关系数,系数值由-1 至 1 之间,具有消减误差比例的意义。但是,这个系数不

40、仅要假定两个变量具有直线的相关,而且要假定,如果定序变量改用定距层次来测量,则其数值会做正态分布。由于要符合这两项假定,因此,很多社会学研究放弃采用该相关系数,改用相关比率,即将定序变量看作定类变量。另外,也有些社会学家将定序变量看作是定距变量,因此采用积距相关系数,甚至进行线性回归分析。第六节 双变量相关分析小结1.Lambda 系数- 0,1 两个定类变量的关系或者一个定类与一个定序变量的关系。计算公式按照对称与不对称分为两种。PRE。2.tau-y 系数-0,1两个定类变量的关系或者一个定类与一个定序变量的关系。它只适合于分析不对称关系,敏感度高于 Lambda 系数。PRE 。3. 斯

41、皮尔曼等级相关系数-r s-1,1两个定序变量之间的对称关系。平方值具有 PRE 意义。4.Gamma 系数-1,1两个定序变量之间的对称关系。PRE。4.dy 系数-1, 1两个定序变量之间的不对称关系。PRE。5.简单线性回归分析两个变量都是定距变量,且彼此关系不对称。线性回归方程式 y=a+bx 来预测或估计依变量 y 的数值。6.积距相关系数 r-1,1两个定距变量的对称关系,而且假定两变量间呈线性相关。其平方值具有PRE 的意义。除了表示相关程度与方向外,r 系数值也可表示简单线性回归方程在预测时的准确程度。7.相关比率 E20,1一个定类变量与一个定距变量的非对称关系,也可用来分析

42、定序变量与定距变量的非对称关系。PRE。可用于分析具有非线性关系的两个定距变量。第六章 统计推论与抽样教学目的和要求: 通过本章的学习,使学生初步了解统计推论中的相关概念,明确抽样的历程和抽样类型的划分,能够根据调查的具体情况选取合适的抽样方法,理解概率论的基础知识,把握抽样分布及其特征。教学重点和难点:重点是概率抽样法的分类,难点是抽样分布,尤其是正态分布的相关知识。教学方法:课堂讲授,辅之以实例讲解。教学内容:第一节 统计推论的特点及相关概念一、统计推论的特点1、由于样本资料来源于总体,因此样本资料的特性在某种程度上能够反映总体的特性。2、由于社会资料具有随机性,即抽样的结果不是唯一的,而

43、且在抽样过程中不可避免地会产生误差,因此,一次抽样的结果不能恰好就等于总体的结果。二、相关概念1、统计值:从样本中计算出来的数值2、参数值:总体中的数值运用样本的统计值来推测总体的参数值。第二节 抽样的历程一、界定总体二、收集个案名单三、决定样本的大小四、设计抽样的方法五、评估样本的正误第三节 非概率与概率抽样法非概率抽样,在抽取样本时根据主观判断或其他操作上的方便进行。例如立意抽样法、偶遇抽样法和定额抽样法都属于这种。概率抽样在抽取样本时依据的是随机原则。所谓随机原则就是在抽选调查对象时,规定了一定的程序,以保证每一个个体都有同等入选的机会,从而避免了主观因素的影响。一、非概率抽样1、立意抽

44、样法,又称判定抽样法,是依据研究者的主观见解和判断,选取他认为是典型的个案。2、偶遇抽样法。就是碰到谁调查谁。3、定额抽样法。根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样本个案。二、概率抽样1、简单随机抽样:按照随机原则,直接从总体 N 个个案中,抽取 n 个个案作为样本,保证总体中每个个案在抽选时都有同等的机会被选中。(1)简单重复抽样:把已经抽取出来的个案记录下来以后,再放回原有的总体中,参加下一次抽取。(2)简单不重复抽样:被抽中的个案不再放回原来的总体中,因此是连续进行 n 次抽取构成一个样本。随机数表的使用2、等距抽样又被称为机械抽样或系统抽样。它指的是,先将总体按某

45、一因素排列,然后依固定的间隔,每隔若干个案抽出一个,构成等距抽样的样本。总体中用以排序的因素,可以是与调查内容无关的,也可以是与调查内容有关的。在大规模的研究中,等距抽样简化了抽样过程,较为方便快捷。但需要大家注意的是,总体的排列不能存在周期性,否则样本的代表性会降低。3、分层抽样先将总体按与研究内容密切有关的主要因素分类或分层,然后在各层中按随机原则抽选一定个案构成样本。分层的目的,在于充分利用对总体已知的信息,把总体划成若干同质层,减少层内差异,增加抽样调查样本的代表性。所采用的分层标准,要保证分层以后,层与层之间的差别很大,但层内的差别则很小。(1)分层定比抽样:样本中各层的抽取比例是相

46、同的(2)分层异比抽样:样本中各层的抽取比例不相同。当总体中某一层人数较少,但又具有较高的研究价值,这时可增大这一层的抽样比例。4、整群抽样总体被分为很多“群” ,这些群是抽样的单位。一旦某些群被选入样本后,则群中的每一个个案都要接受调查。整群抽样适用于群间差异小,而群内差异大的总体,这点正好和分层抽样相反。5、多阶段抽样和 PPS 抽样多阶段抽样,是先抽取若干群,然后从所选取的群中再抽取若干子群,再从子群中随机抽取子子群,依法继续往下抽取,直至抽中的个案满足了抽样者的要求。PPS 抽样是一种常用的多阶段抽样方法。它要求抽样的概率与群规模成比例。它的优点是不要求各阶段的群规模大小相同,只通过各

47、阶段不等的抽样概率,最终实现了总体中的个体具有相同的抽样概率,从而保证了估计的无偏性。f1=(某班人数/总人数)*2f2=50/某班人数f= f1* f 2=(某班人数/总人数)*2*(50/某班人数) =1/10第四节 概率与抽样分布一、概率的计算概率指的是随机事件发生可能性大小的数量表示。1.频率法可以把随机事件的概率视作试验或观察次数 N 趋于无穷时相应频率 n/N 的稳定值。这是概率的频率定义。由于试验或观察次数 N 为无穷是做不到的,因此,实际上可把观察次数 N 充分大时(例如社会调查中的样本数为 1000 人)的频率作为概率的近似值。2.古典法:利用模型本身所具有的对称性来事先求得概率

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报