1、社会统计学,易艳阳,课程要求,成绩计算:平时40%(考勤、作业),期末(60%)准备:作业本 计算器 清华大学出版社:社会统计学与应用 高等教育出版社:社会统计学,第一章 绪论,学习目标: 了解统计学及其发展 掌握社会统计学的几个概念,第一节 什么是社会统计学?,互动:你身边的统计?你对统计学了解多少?,科学只有当它利用了数学的时候,它才达到了完善的程度。马克思对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要。H.G.Wells,回顾:社会调研方法(定量)的几个步骤,确定课题 了解情况 建立假设 建立概念的测量方法 设计问卷 试填问卷 调查实施(抽样调查) 核校与登录 统计分析与命
2、题的检验,一、确定课题,课题的研究必须具有社会价值; 其次,还要考虑人力、物力的可能。 有强烈的时代感,二、了解情况,在确定研究课题之后,通过查阅文献和向有经验、有知识的人,了解本课题已有的进展。同时,更重要的还要向社会进行了解。运用个案调查、典型调查进行探索性研究,了解人们现实的想法与动态,以便取得一手资料。,三、建立假设,在前两步的基础上,明确研究的范围,并在初步探索的基础上,提出一定的想法和建立假设。 举例来说,如果我们确定的课题是有关生育意愿的问题,那么,通过探索性研究,发现生育的意愿是因人而异的。具体说,文化程度高的人,希望生育的子女数,就比文化程度低的要少些。城市的居民比农村的居民
3、希望生育的子女数要少些。这里我们不仅讨论孤立的社会现象,诸如:希望生育的子女数与文化程度之间的联系;希望生育的子女数与地区之间的联系。这称为命题或模型的研究。,三、建立假设,模型的表述有两种方式: 差异式:差异式仅说明现象与现象之间存在关系。例如上面所谈的地区不同、生育意愿也不相同就是差异式模型。 函数式:函数式不仅表现了现象与现象之间的存在关系,而且还表现了两者间变化莫测的方向: A高则B高(正比); A高则B低(反比)。 上例中文化程度越高,则生育意愿越低就是反比关系。 需要强调的一点,以上模型只是一种初步想法,或假设。最终能否确立,还必须通过实践的检验。,四、建立概念的测量方法,通过上例
4、可以看出,在社会研究中,需要采用适当的术语或概念来描述研究的对象。例如上例中,就运用了“生育意愿”这样一个概念,概念是进行研究的基本单位,它犹如建筑大厦中的基石。通过它,才能建立起整体的间的联系。概念一般具有抽象的属性,没有时间和空间的限制。抽象层次越高,所概括的现象越广。 抽象定义 操作化定义 城市化 抽象定义?操作化定义?,五、设计问卷,问卷是指一组与研究目标有关的问题。这些问题则是根据概念的操作化所提出的。问卷包括的内容一般有: 一、事实:被访人的年龄、性别、职业、文化程度等。这些事实属于基本资料,在分析过程中,往往被当作自变量来考虑。 二、态度与看法:被访人对某种行为、政策是否赞成,对
5、某种职业的评价等等。 三、行为趋向:行为趋向具有假设性。要了解的簇是在某一种情况下,被访者会有什么样的行为。 四、理由:了解被访人采取某种态度和行为趋向的原因。 例子:公众整容态度调查问卷 固定答题式 自由答题式,六、试填问卷,把问卷发给研究对象中的少数人试填,以便使问卷设计不同或遗漏之处,尽量在试填阶段予以纠正。否则,当大规模调查一经开始,纠正起来将相当困难,甚至不可能。这点凡具有实际经验的人,都知道它在调查研究中的实际价值和不可缺少性。,七、调查实施(抽样调查),社会研究,很少采用全面调查,一般都是从研究总体中,科学地抽取一部分进行研究,然后从局部推论到全体。但即使是抽样社会调查,一般调查
6、人数也在数百人以上。因此对于大型抽样社会调查,培训访问员协助调查是必须的。 但研究人员在问卷调查中,自己也要参加一部分实地调查,以便及时发现问题,指导访问员和对访问员进行质量检查。,八、核校与登录,问卷回收后,应立即逐份进行校核,看看是否有填错或明显不合理的部分。情况发现得越早,纠正起来越方便。否则,事过境迁,无论访问员或被访者回忆起来,都将十分困难。问卷校核之后,可以将资料录入计算机保存起来,以便进一步处理。,九、统计分析与命题的检验,问卷回收的资料还只是原始的数据,它必须经过整理、归纳与分析,才能作为研究命题或假设的凭据。而资料的整理、归纳、分析以及如何收集资料,正是统计分析所要涉及的基本
7、内容。 进行统计分析,其计算量一般都很大,目前这些大量重复、令人困倦的计算,一般都不得委以计算机去完成。 SPSS,SAS,九、统计分析与命题的检验,进行统计分析,可以进行以下几方面的工作:检验最初研究阶段的命题或假设是否得以证实或部分证实, 并在此基础上对研究内容提出建议和确定进一步的研究方案。,什么是统计学?,统计,原本是统而计之,合而计之的意思,后来,译自英语statistics的“统计”一词。 延伸为包含下面三种涵义: 统计工作:从事具体的数字资料搜集、分析的实践活动; 统计数据:统计工作的成果数字资料及相关信息; 统计学:统计工作实践的理论总结和提炼,一门方法论科学,下面我们介绍统计
8、学、统计数据及统计工作的一般问题。,什么是统计学?,收集、分析、表述和解释数据的科学 1. 数据搜集:取得数据 2. 数据分析:分析数据 3. 数据表述:图表展示数据 4 、数据解释:结果的说明,statistics的定义 (不列颠百科全书),statistics: the science of collecting, analyzing, presenting, and interpreting data. Copyright 1994-2000 Encyclopaedia Britannica, Inc.(不列颠百科全书),什么是社会统计学?,社会统计学是运用统计的一般原理,对社会各种静态
9、结构与动态趁势进行定量描述或推断的一种专门的方式与技术.社会统计学的研究对象: 社会现象的数量方面,统计学的应用领域,统计的应用领域,actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demography (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election foreca
10、sting and projection (选举预测和策划) engineering (工程) epidemiology (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human genetics (人类遗传学),统计的应用领域,hydrology (水文学) Industry (工业) linguistics (语言学) literature (文学) manpower p
11、lanning (劳动力计划) management science (管理科学) marketing (市场营销学) medical diagnosis (医学诊断) meteorology (气象学) military science (军事科学) nuclear material safeguards (核材料安全管理) ophthalmology (眼科学) pharmaceutics (制药学) physics (物理学) political science (政治学) psychology (心理学) psychophysics (心理物理学) quality control (质
12、量控制) religious studies (宗教研究) sociology (社会学) survey sampling (调查抽样) taxonomy (分类学) weather modification (气象改善),第二节 统计学的产生和发展,古典统计学 近代统计学 现代统计学,一、古典统计学,17世纪中末叶至18世纪中末叶的统计学萌芽时期 国势学派 代表人物: 康令, 阿亨瓦尔( G.Achenwall,17191772) “有名无实”的学派 政治算术学派 代表人物: 威廉配第 近代统计学之父 政治算术 配第在书中使用的数字有三类: 对社会经济现象进行统计调查和经验观察得到的数字 运
13、用某种数学方法推算出来的数字 为了进行理论性推理而采用的例示性的数字 “有实无名”的学派,1749年,阿亨瓦尔根据拉丁文“Status”、意大利文Stato和Statista及德文Statisti等字根创造出 “Statistik”这个新词,原意指“国家显著事项的比较和记述”。只用文字记述,不用数字计量。它又称记述学派历史学派。,威廉 配第1667年在其政治算术一书 中,运用有关人口、土地税收和国家收入方面的数字资料,对英国、荷兰的经济实力进行比较,首创了一种数字对比分析的方法。“即用数字、重量、尺度来表达自己想说的问题。”,二、近代统计学,18世纪末到19世纪末 数理统计学派 1869 比利
14、时人 凯特勒社会物理学 将古典概率论引入统计学 “近代统计学之父” 社会统计学派 德国 :克尼斯 、恩格尔、 梅尔 研究社会总体现象采用大量观察法 第一次世界大战前后,随着社会统计学派的中心逐步向英、美等国转移,社会统计学与社会学的关系日益明确。,三、现代统计学,自20世纪初至今的推断统计学,以随机抽样为基础,推论(估计)总体数量特征的方法体系。 二次大战后,社会统计学在广义和狭义两方面的实践意义逐步得到了人们的公认。 20世纪50年代以后,统计学的发展呈现三个明显的特点: 其一,是统计理论和方法的应用有了广泛的发展,不仅自然科学研究方面大量应用统计方法,就是社会和人文科学也越来越广泛开展地应
15、用统计方法,特别是在经济、工商管理领域、社会学领域尤为如此; 其二,进一步开发出一系列新的统计方法,如多元统计分析,探索性数据分析、现代时间序列方法等; 其三,是统计研究与电子计算机应用密切结合。,三、现代统计学,20世纪60年代以来,西方发达资本主义国家先后都 制定了社会发展计划。 20世纪60年代首先在美国掀起了 一个颇有声势的“社会指标运动”。 1966年,雷蒙 布埃尔提出用社会指标的方法解决社 会分析和社会规划的基本理论,出版了社会指标一 书。 1976年,经互会社会统计基本指标体系 1976年,OECD社会生活质量的计量 1982年,国家统计局成立社会统计司 1983年,中国社会统计
16、资料首次公开出版,第三节 统计数据、规律、过程与方法,统计数据 统计规律 统计过程 统计方法,统计数据的分类,统计数据的分类,统计数据的分类 (按计量尺度分),分类数据(categorical data) 只能归于某一类别的非数字型数据 对事物进行分类的结果,数据表现为类别,用文字来表述 例如,人口按性别分为男、女两类 顺序数据(rank data) 只能归于某一有序类别的非数字型数据 对事物类别顺序的测度,数据表现为类别,用文字来表述 例如,产品分为一等品、二等品、三等品、次品等 数值型数据(metric data) 按数字尺度测量的观察值 结果表现为具体的数值,对事物的精确测度 例如:身高
17、为175cm、168cm、183cm,统计数据的分类 (按收集方法分),观测的数据(observational data) 通过调查或观测而收集到的数据 在没有对事物人为控制的条件下而得到的 有关社会经济现象的统计数据几乎都是观测数据 试验的数据(experimental data) 在试验中控制试验对象而收集到的数据 比如,对一种新药疗效的试验,对一种新的农作物品种的试验等 自然科学领域的数据大多数都为试验数据,统计数据的分类 (按时间状况分),截面数据(cross-sectional data) 在相同或近似相同的时间点上收集的数据 描述现象在某一时刻的变化情况 比如,2003年我国各地区
18、的国内生产总值数据 时间序列数据(time series data) 在不同时间上收集到的数据 描述现象随时间变化的情况 比如,1996年至2003年国内生产总值数据,社会统计工作的程序,制 定 计 划,统计调查,统计整理,统计分析,统计报告,统计研究的过程,实际问题,统计规律,表面上杂乱无章的随机现象,实际上是有其内在规律性的。 一些例子: 正常条件下新生婴儿的性别比为107:100 投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6 农作物的产量与施肥量之间存在相关关系,大数规律,随机现象出现的基本规律 其一般意义是:观察过程中每次取得的结果可能不同
19、(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。 比如,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然必然中包含着必然。,统计方法,描述统计 (descriptive statistics),研究数据收集、整理和描述的统计学分支 内容 搜集数据 整理数据 展示数据 描述性分析目
20、的 描述数据特征 找出数据的基本规律,推断统计 (inferential statistics),研究如何利用样本数据来推断总体特征的统计学分支 内容 参数估计 假设检验 目的 对总体特征作出推断,第四节 统计中的几个基本概念,总体、样本、单位 参数和统计量 标志、变量(variable) 指标、指标体系,总体、样本、单位,总体(population) 所研究的全部个体(数据) 的集合,其中的每一个元素称为个体 分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) 从总体中抽取的一部分元素的集合 构成样本的元素
21、的数目称为样本容量 单位:构成总体的每一个个体,参数和统计量,参数(parameter) 来描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、总体比例()等 总体参数通常用希腊字母表示 统计量(statistic) 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等 样本统计量通常用小写英文字母来表示,标志,总体的每个单位都有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。 按性质分: 数量标志:能用数量的多少来表示
22、的标志,如学生年龄 品质标志:不能用数量的多少来表示而只能用文字来描述的标志,如性别。,按变异情况分:不变标志与可变标志 不变标志:当一个标志在各个总体单位的具体表现都相同时,这个标志称为不变标志。构成总体同质性的基础,任何个体只有在某些预设的不变标志的基础上才能集合成一个总体。 可变标志:当一个标志在各个单位的具体表现有可能不同时,这个标志称为可变标志或变异标志。,可变的品质标志:变项,如性别/(虚拟变量) 可变的数量标志:变量,如年龄(狭义) 不变的数量标志:常量或参数 (从广义上讲,不仅可变数量标志可称为变量,而且所有指标也可称为变量。),变 量 (variable),说明现象某种特征的
23、概念 如商品销售额、受教育程度、产品的质量等级等 变量的具体表现称为变量值,即数据 离散变量与连续变量 虚拟变量 自变量与因变量 确定性变量与随机变量,离散变量:数值可以一一枚举,只能取离散型的自然数。 连续变量:变量的取值在数轴上连续不断,可以取无穷多个值 。 确定性变量:受确定性因素影响的变量,即影响变量值变化的因素是明确的,可解释的和可控制的。 随机性变量:受不确定(随机)因素影响的变量,即变量值的变化难以预先确定。,指标与指标体系,指标:反映总体的数量特征的概念或范畴,如人口数、就业率、性别比等数量指标与质量指标 总量指标、相对指标、平均指标,指标体系,社会统计中,如要全面把握对象总体
24、情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。 指标体系:一组相互联系的并与之相适应的指标来完整地反映对象总体。 例子:和谐社区指标体系(互动),和谐社区指标体系,1、社区总体评价:社区总体评价由单一调查指标构成。要求调查对象对所在社区给出一个总体评价,分值范围为110分。调查对象的评分即为社区总体评价得分。 2、社区综合满意度:这是对社区提供的各种公共资源的满意度的一个综合。我们选择了社区的治安、公共道德状况等15个方面,调查居民的满意程度。测量采用四度量表:满意、比较满意、不太满意、很不满意。对15个方面的满意度得分进行加总平均,即得到社区综合满意度
25、得分。,3、邻里互动指标:由本楼组的邻居认识情况和邻里之间和睦关系的评价两项指标构成。每百名调查对象中至少认识1户邻居并保持和睦关系的人数为邻里互动指标得分。4、邻里互助指标:邻里互助指标考察的是邻里之间建立互助关系的可能性程度。包括:当邻居需要帮助时,是否愿意在力所能及的范围内提供帮助?假如自己家发生意外时,是否相信邻居会来帮助自己?每百名调查对象中很乐于帮助邻居并且相信邻居也会帮助自己的人数为邻里互助指标得分。,和谐社区指标体系,5、社区参与指标:社区参与指标考察的是社区居民对社区公共事务的参与情况。列出了居委会或楼组长工作等13项社区公共事务的参与项目。每百名调查对象中至少参与2项社区活
26、动或社区事物的人数为社区参与指标得分。6、社区意识指标:社区意识指标考察的是社区居民对参与社区公共事务的基本认识和态度。主要调查项目包括政府部门在执行社区建设计划前应先听取社区居民的意见等,7、党在社区指标:考察的是党员在社区的影响力和形象展示状况,每百名调查对象中至少认识1名本楼组党员居民并认为大多数党员在社区中表现良好的居民人数,即为该指标的得分。 8、社区归属感:包括以下调查项目:(1)如果我要搬走,我会感到很伤心;(2)我和邻居有很多共同点;(3)如果我要离开家里几分钟,我会敢于让邻居帮忙照看一会儿家;(4)我和小区中很多人是好朋友;(5)我喜欢这个小区;(6)邻居对我信任并且尊重我;
27、(7)小区内的人很乐意相互帮助。要求调查对象根据和实际的相符情况表示:非常同意、比较同意、不太同意、很不同意。,总体、样本、参数、统计量,标志与变量,总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。,数量标志,品质标志,变量 X,连续变量 (精确值),离散变量(近似值),自变量和因变量,确定性变量和随机变量,虚拟变量,指标与指标体系,统计指标是反映总体(或样本总体)的数量特征的概念或范畴。如人口数、湿地面积、就业率、性比例等等,这些概念用于反映一定总体的数量方面时,就是统计指标。,数量指标和质量指标,总量指标、相对指标和平均指标,在社会统计中,如要全面把握
28、对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。指标体系就是一系列有内在联系的统计指标的集合体。,几种常用的统计软件 (Software),典型的统计软件 SAS SPSS MINITAB STATISTICA Excel,习题,一、填空 1一般来说,统计这个词包括三个含义:统计工作、统计资料和( )。 2( )的实践已有几千年的历史,是最早产生的统计。 3( )这一学派产生于德国,其创始人为康令(16061681)和阿亨瓦尔(17191772)。 4统计按其内容主要包括两个方面:描述统计和( )。 5推论统计有两个基本内容:参数估计 和( )。
29、6通过抽样得到的用以推断总体特征的那个“部分”,在统计学上称为( )。样本中所含的单位数,在统计学上称为样本大小,也叫做( )。,7总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为( )。凡能用数量的多少来表示的标志,称为( )。凡不能用数量的多少来表示而只能文字表述的标志,称为( )。 8( )是反映总体(或样本总体)的数量特征的概念或范畴 9统计指标和标志的区别与联系在于:统计指标是说明( )特征的,标志则是说明( )特征的;统计指标的数值是由标志的数值( )而成的。 10要了解有个班级学生的学习情况,则总体是( ),总体单位是(_ )。 11凡是相邻的两个
30、变量值之间可以连续不断分割的变量,称为( )。凡是各变量值之间是以整数断开的变量,称为( )。 12大量观察法之所以称为统计上特有的方法,是与( )的作用分不开的。,二、单项选择 1统计总体同时具备三个特征( )。 A 同质性、大量性、可比性 B 同质性、大量性、变异性 C 数量性、具体性、综合性 D 数量性、具体性、可比性 2政治算术学派的代表人物是( ) A 康令 B 威廉配第 C 恩格尔 D 凯特勒 3西方统计学认为近代统计学之父的是( ) A 威廉配弟 B 阿道夫凯特勒 C 海尔曼康令 D 约翰格朗特 4要了解400个学生的学习情况,则总体单位是( ) A 400个学生 B 每一个学生
31、 C 400个学生的成绩 D 每一个学生的成绩 5下列属于品质标志的是( )。 A 职工的年龄 B 职工的性别 C 职工的工资 D 职工的工龄,6下列属于数量标志的是( )。A 职工的工龄 B 职工的性别C 职工的籍贯 D 职工的政治面貌 7按变量的连续性,可把变量分为( )。 A 连续变量和随机变量 B 离散变量和确定性定量C 连续变量和离散变量 D 离散变量和随机变量 8说明总体中单位的属性或数量特征的名称在统计上称为( ) A 指标; B 数据 C 标志 D 项目。 9对某市高等学校的科研所进行调查,则统计总体是( ) A 某市所有的高等学校 B 某一高等学校的科研所 C 某一高等学校
32、D 某市所有高等学校的科研所 10健康状况、企业所有制、工资级别可理解为( ) A 数量标志 B 品质标志 C 数量指标 D 质量指标 11统计一般有三个含义,即( ) A 统计调查、统计整理、统计分析 B 统计工作、统计资料、统计学 C 统计活动、统计管理、统计预测 D 统计咨询、统计监督、统计信息,答案,1统计学 2社会统计 3国势学派 4推论统计 5假设检验 6样本、样本容量 7标志、数量标志、品质标志 8统计指标 9总体、总体中各单位、汇总 10班级的所有学生、班级中的每个学生 11连续变量、离散变量 12大数规律 1B 2B 3B 4B 5B 6A 7C 8C 9D 10B 11B,结 束,THANKS,好好学习,天天向上,