1、,1,第六章 资料分析法,一、资料分析,1、概念,2、类型,定量分析 定性分析 理论分析,资料分析是运用科学的逻辑思维方法对社会调查所获得资料进行研究、判断和推测,以揭示社会事物或现象的性质、特征与规模的过程。,(1)定性分析是识别属性、区别事物、分析划类。(2)定量分析对调查对象精确的测量、描述和推断准确地说明事物变化的程度和趋势。(3)理论分析则以定性分析和定量分析为必要前提,承担着透过调查感性材料,揭示事物内在本质和发展规律,证实或者证伪理论假设的任务,对于应用性调查课题,还承担着在理论说明的基础上进一步对实际工作提出对策建议的任务。,三大分析类型的作用:,二、定量分析法,1、涵义是运用
2、概率、统计原理对社会现象的数量特征、数量关系和事物发展过程中的数量变化等方面进行的研究的方法。,(一)定量分析的含义与特点,2、特点:(具有科学性、客观性的特点), 大量观察、建立数据库 描述统计:用统计学来简化数据,描述特征和关系。 推论统计:用统计学可以从局部来推论总体的情况。,资料的整理和录入单变量统计分析双变量统计分析多变量统计分析,(二)定量分析的主要内容,1、资料的整理和录入,资料审核资料整理资料编码数据录入数据清理数据汇总制作统计图表,定量资料的来源:一是实地源二是文献源,(1) 资料审核,包括问卷资料、结构性访问和观察的记录等等, 资料的审核,资料的审核是指研究者对所收集的原始
3、资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔除乱填、空白和严重缺答的废卷。目的:使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录入与统计分析工作打下较好的基础。对定量资料的审核主要集中在完整性、统一性和合格性上。,实地审查 系统审查,a. 资料的完整性,一是资料总体的完整性二是每份资料的完整性,首先是检查所有问卷、报表登记填报方法是否统一;其次要检查对同一指标的数字所使用的量度单位是否一致,以及不同表格对同一指标的计算方法是否统一等。,b.资料的统一性,统计资料的统一性审查第一,审查指标的定义和分组的标准是否与自己研究的分类相一致;第二,审查指标统计总体范围是否
4、一致。,c.合格性审查,内容:第一,提供资料者的身份是否符合所规定的调查对象的身份。第二,所提供的资料是否符合填报要求。第三,所提供的资料是否正确无误。,方法:第一,判断检验,就是根据已知情况来判断资料是否真实正确。第二,逻辑检查,即从资料的逻辑关系来检验其是否正确真实。第三,计算检验,就是通过各种数字运算来检验各项数字的正确 性。,第一阶段,是由调查员进行审查。 第二阶段,由现场专职的检查员进行检查。第三阶段,是在调查结束后由调查组织机关的检查员进行检查。,重点检查:第一,回答登记错误第二,计算错误第三,调查员是否对应调查对象进行了调查,有无作弊等。,实地审查,系统审查,整个审核工作的过程,
5、(2)资料整理,真实性原则合格性原则准确性原则完整性原则系统性原则统一性原则简明性原则新颖性原则。,原则,方法,第一,按照调查要求分类。第二,不重不漏,即每两个分类之间必须是穷尽且相互排斥的。第三,必须对变量进行完整的定义,语言必须准确。第四,对分类划分的详细程度要把握得当,就是在分类的粗细之间找到一 个平衡点。,对文字资料分类 对数字资料分组,对文字资料分类,应注意的问题,对数字资料分组,第一,选择分组标志:分组标志就是分组的标准或者依据,一般作法是按照质量、数量、空间、时间这四个指标进行分组。在一些比较复杂的问题中,我们还可以用以上四种基本标志组合出其它多种复合标志。 第二,确定分组界:分
6、组界限是指划分组与组之间的边际。分组界限包括组数、组距、组限、组中值等内容。在很多情况下,组中值可以作为该组的代表值。 第三,编制变量数列:变量即各个标志的具体数值。编制变量数列实际上就是把各数值归入适当的组内。分组完成后,就可以按照按照质量、数量、空间、时间这四个指标编制变量数列。,一 般 步 骤,(3)资料的编码,编码的定义 编码的步骤 编码的方法 编码簿,编码的定义,编码是给每个问题及答案一个数字作为它的代码。从资料处理的角度看,编码就是用阿拉伯数字来代替问卷中每一个问题的回答,或者说是将问卷中的答案转换成数字的过程。,编码的步骤,第一步:对回答进行分类 第二步:建立回答类别与变量数值间
7、的对应关系。,编码的方法,是在设计问卷时对回答的每一个种类都指定好其编码值,并印在问卷上。,预编码,后编码,指问卷的编码过程是在问卷回收之后进行的,而不是与问卷设计同时进行的,多用于开放性问题的编码。,边缘编码,实际上是一种预编码的方法,它与前面所讲的预编码的不同之处在于,这种方法不仅指定了编码值,而且给出了每个项目记录回答的空间,现在应用得最多。,编码簿,无论哪一种编码方法,都必须制作编码簿,用以指示每个编码的意义和变量的位置。编码簿可以作为编码工作的指南;它可以使研究者在分析过程中便于查找变量及各个编码所代表的意义。,作用:,编码簿(编码手册)节选,主要内容,问题号码:是在调查表或问卷上的
8、问题的题号,有了题号就可以知道这一题目在资料卡片上的哪几列。变量号码:是研究者自己为各变量所编的号码,有了变量号码后,研究者可知变量的代号,以利分析计划的拟订,在分析时直接引用变量号码而不必提及变量名称。,项目名称:又称变量名称,用概括性的语言表明项目的含义,使研究者对于该变量的含义一目了然。编码的内容说明 :即给出每一项问题答案的分类以及分配给每一类别的数字。列序号:即每一项目应当占哪几列。在每个个案是由两个或两个以上横行的数据组成的情况下,常设有横行序号一栏,表明变量的横行位置。,(4)数据录入,方式:直接从问卷上将编好码的数据输入计算机;先将问卷上编好码的数据转录到专门的登录表上,然后再
9、从登录表上将数据输入计算机。,数据登录表部分,(5)数据清理,有效范围清理 逻辑一致性清理 数据质量抽查,(6)数据的汇总,涵义:是根据研究的目的,对分类后的各种数据进行计算和加总,汇集到有关的表格之中,以集中系统地反映调查资料总体内部的数量情况。,汇总的目的:(1)初步了解数据的分布情况;(2)为编制次数分布表做准备;(3)为深入的统计分析做准备;(4)便于保存调查资料。,汇总方法:汇总的结果通常是用汇总表的形式给出。制作汇总表时,一般地应将封闭型问题放在汇总表的左侧,然后是半封闭性问题,最右侧是开放性问题。,(7)制作统计图表,统计表的组成,标题 栏目 数字 表注等,统计图类型,几何图,象
10、形图,统计地图,条形图 平面图 曲线图,长度象形图 单位象形图,底纹统计图 象形统计图,请想一想,怎样根据自选课题制作一份数字资料统计表提示:统计表的要素必须完整。横标目和纵标目不得少于5项,内容自定。,新街口商业步行街区人流统计汇总表,注:调查时间为3月12日3月18日,每日观察时间选取人流高峰时段。如天桥为12:0013:00 ,步行街为13:0014:00,公建人口为14:0015:00 平常日人流由周一五周四除外数据均值得,双休日由周六、周日均值算得。,交通方式得分计算结果,注:按照不同出行方式的综合评分进行排序,对前三位的出行方式按等差数列打分,最主要的出行为5分,其次为3分,再次为
11、1分。最后根据各交通方式的最终得分来确定到新街口的最主要的出行方式。,统计图虽然不如它精确,但却更直观、生动、醒目。常用的统计图有圆瓣图、条形图、直方图和折线图等。,统计图与统计表比较:,统计图1: 我国城镇从业人员就业结构,统计图2,(三)单变量统计分析,单变量的描述统计单变量推论统计,集中趋势分析离散趋势分析,区间估计假设检验,单变量的基本描述技术,1、分布特征:(1)频数(Frequency):又叫频次,指每个变量出现的次数(2)频率(percent):将每一变量取值出现的频数在总次数中所占比率(3)累计频数(Cumulative Frequency):又叫累计频次,从最小值起累计案例数
12、(4)累计频率(cumulative percent):从最小值起累计百分比,频次分布,这是最基本的一种方法。简单来说,就是变量的每一取值出现的次数。如上表中的第一列数字就简化了某校550个学生的父亲职业资料,很容易看到是农民最多,干部最少。,某校学生家长父亲职业统计表,统计表:就是以表格形式来表示变量的分布。,频数与频率图,2、集中趋势测量,指用一个典型值或代表值来反映一组数据的一般水平,或反映这组数据向这个典型值集中的情况。,特点:就是可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。比较简单、方便。这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所
13、发生之错误的总和理应是最小的。,常见的集中趋势指标,算术平均值( Mean ) 中位值( Median ) 众值( Mode ),定类变项:众数(Mode) 定序变项:中位数(Median) 定距变项:均值(Mean),应用:,(1)平均数,指总体各单位数值之和除以总体单位数目之商。,.,公式,分组形式的平均数计算:,足,组中值=,上限+下限,2,例1 :,平均收入=,xf,n,=,38000,100,=380,调查某企业100名职工的收入,得到下表资料,计算他们的平均收入,(2)中位值(Median),中位数(简写Md)是将观察总数一分为二的变量值,即高于此值的有50%的研究个案,低于此值的
14、也有50%。中位数:像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“中等水平”。,中位数的计算方法:,将各个案由低至高排列起来,居于序列中央位置的个案的值即为中位值。观察总数为奇数:Md= (N+1)/2当观察总数为偶数:将位于最中央位置的两个数值的平均值作为中位值 。,注意:中位值是指中位数上对应的数值,当n是奇数时:例:甲地的五户人家的人数由少至多排列如下:2,3,4,6,8解:中位数公式:Md= (N+1)/2中位数的位置=5+1/2=3,序列中第三个位置的值为4,因此,中位值=4。,方法:将各个个案由低到高排列起来,居序列中央位置的个案的值就是中位数。,当n是偶数时
15、:,例:乙地有八户人家,每户人数由少至多分别是:2,4,4,5,7,8,10,10解:中位数的位置:落在序列上第四户与第五户之间中位值 = =6。,方法:是将位于最中央的两个数值的平均数作 为中位数。,5+7,2,将甲地与乙地的中位数作比较,可见甲地的每户人数少于乙地。,(3)众数,众数:反映了出现次数最多的数据,用来代表一组数据的“多数水平”。众数着眼对一组数据出现的频数的考察,它作为一组数据的代表,它不受极端数据的影响,其大小与一组数据中的部分数据有关,当一组数据中,如果个别数据有很大的变化,且某个数据出现的次数较多,此时用众数表示这组数据的集中趋势,比较合适,体现了整个数据的集中情况。,
16、3、离散趋势分析,是指用一个特别的数值来反映一组数据相互之间的离散程度。,全距标准差异众比率四分位差,常见的离散趋势统计量,(1)标准差,标准差公式,.,一组数据对其平均数的偏差平方的算术平均数 的平方根,在调查甲地的十个乡的卫生情况时,发现每个乡的卫生户比率如下:8 18 14 14 8 15 12 17 12 19问它们的标准差为多少?,=3.6,解:,例题1:,某校三个系各选名同学,参加智力竞赛,他们的成绩如下:请分析它们的离散程度中文系:78 79 80 81 82数学系:65 72 80 88 95英语系:35 78 89 98 100解: 平均值:三个系代表队的平均成绩都为80分。
17、均值到底对哪一个代表队的代表性高呢?用前面的公式可得: 标准差: 中文系=1414 数学系=108 英语系=238由此证明,平均成绩对中文系代表队的代表性最大,对英语系的代表性最小,离散程度最大。,例题:,如上例,平均每乡有137%是卫生户,而反映各乡差异的标准差数值是36。例如,在调查乙乡的卫生户比率时,假定均值是185,标准差是17,对比之下,乙地各乡的差异程度小于甲地。,标准差能表示调查对象离散程度的大小, 标准差数值在相互比较中更能突出其意义。, 标准差有另一种意义,就是表示用均值作估计或预测变项值时所犯错误的大小。,标准差的作用:,(2)离散系数,指标准差与平均数的比值,用百分比表示
18、。 计算公式为:,离散系数是一种相对的离散趋势统计量,能够对同一总体中的两种不同的离散趋势统计量进行比较,或者对两个不同总体中的的同一离散趋势统计量进行比较。,对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间在收入的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?,例:,解: 广州居民收入的离散系数为:武汉居民收入的离散系数为:可见,比较而言,武汉居民相互之间在收入上的差异程度,比广州居民相互之间的差异程度更大一些。,(3)异众比率,异众比率是对众数的补充,异众比率越小,说明众数的代
19、表性较好;反之,异众比率越大,则说明众数的代表性越差。公式如下:,V=,指非众数的各变量值的总频数在观察总数中的比率。,式中:n是全部观察总数, 是众数出现的频数,,4、各类变量测量的概要指标,5、分布图(集中趋势与离散程度),三、定性资料分析,(一) 定性资料及其形式(二) 定性资料分析的若干性质(三) 定性资料的整理(四) 定性资料分析的过程与方法,(一) 定性资料及其形式,1、定性资料及定性研究的概念2、定性研究的类型、特点、功能3、定性资料分析与定量资料分析的差别4、定性资料分析的目标,(1)定性资料概念,指研究者从实地研究中所得到的各种以文字、符号表示的观察记录、访谈笔记,以及其他类
20、似的记录材料。,(2)定性研究的概念,是指某一社会现象以现有的文献资料或经验 材料为依据,运用演绎、归纳、比较、分类、矛 盾分析等方,以判断事物性质为目的的社会调 查研究。,(3)定性分析最常用类型,内容分析二次分析现存统计资料分析,(4)定性研究的特点,多运用典型调查方法来获得资料,并以此为主要依据获得结论; 可以从纷繁复杂的事物中探寻其本质特征和要素,从个别的、典型的材料中得出结论; 所得出的结论多具有概括性或概貌性。 由于缺乏精确数据的支持,势必造成可比性较差。,应用:一般用于对社会结构和社会关系的研究、历史问题的研究、探索性研究或者是对难以定量的问题的研究。,(5)定性分析的功能,调查
21、之前的定性分析调查之后的定性分析,主要是方案设计,主要内容:提出研究问题、明确调查对象、提出研究假设、明确调查方案、拟定分析方案、建立理论模型。,主要内容:明确分析概念内涵与外延、对调查资料分类、从定性角度验证最初拟定的研究假设和理论模型是否成立。,(6)定性研究的特点,多运用典型调查方法来获得资料,并以此为主要依据获得结论;可以从纷繁复杂的事物中探寻其本质特征和要素,从个别的、典型的材料中得出结论;所得出的结论多具有概括性或概貌性。由于缺乏精确数据的支持,势必造成可比性较差。,应用:一般用于对社会结构和社会关系的研究、历史问题的研究、探索性研究或者是对难以定量的问题的研究。,(7)定性资料分
22、析和定量资料分析的差别,分析程序与技术的标准化程度不同在实践中,与各种不同方式、不同视角的定性研究相伴随的,是同样各不相同的资料分析类型。资料分析的开始点不同定性资料的分析工作从资料收集工作开始的时候就同时开始了,并且,从头至尾一直在进行。,二者与社会理论间的关系上不同定量分析更多的是通过操纵代表经验事实的数字来检验某种带有变量结构的抽象假设。 定性资料通过将经验证据与抽象概念相结合,来提出或创造出新的概念和理论。分析的方式和所用的工具不同定量研究的分析方式是演绎法,在收集资料以后进行量化分析,它的工具是量表、统计软件、问卷和计算机;定性研究的分析方式是归纳法,主要寻找概念和主题,它的研究工具
23、是研究者本人和录音机。,(8)定性资料分析的主要目标,将大量的、特定的细节组织成一幅清楚的图画,一种概括的模式,或一组相互连接的概念。它很少去试图证明某种普遍的法则,而经常是力图去发现或提出某种理解的模型。另外,定性资料分析还可以帮助说明事件的顺序,或者一种社会过程的阶段性特征。,描述与理解,(二) 定性资料分析的若干性质,1、概括性的问题一是实地研究者所研究的一个或少数几个对象是否能代表这些对象所来自的整体的问题。二是我们所研究的一个或少数几个对象是否能代表其他同类对象的问题。2、测量与比较的问题在定性资料分析中,我们可以用许多不同的指标来说明两个个案在某种抽象的观念上所具有的差别。即测量的
24、对象少,但所测得内容多。,(1)类似定量统计的技术。(2)描述分析过程(3)表达“例证”。,3、推断因果联系的问题,由于定性资料更多地是关于“特征”或“性质”而不是关于“变量”的,因而,它往往难以提供有力的证据来说明事物之间的因果联系。总体来说,实地研究所得的资料往往比定量研究中所得的资料更难用于推断变量间的关系。通常情形:实地研究者只是尝试提出某种可能的关系进行解释。,4、实地证据的总结和表达问题,(三) 定性资料的整理,1、整理笔记与建立档案 2、定性资料的编码 3、形成概念 4、撰写分析型备忘录,1、整理笔记与建立档案,主要包括分类、建档、编码等具体内容。手段: 传统的方式:主要以手工操
25、作为主,现代手段:用计算机进行定性资料整理和分析服务。,(1) 整理笔记,计算机整理的方法:是先将实地记录或现场笔记全部输入计算机,存在磁盘上,变成可以随时调用、不断复制、任意组织和无数次处理的文件。,按等级分类即将资料中的概念按照一定的等级排列成不同的层次,类似金字塔;按网络分类即将资料中的概念按照其内在关系组成各种不同的网状结构。,计算机归类的方式有两种:,(2)建立档案, 背景档案特别是对一些研究社会运动或重大社会事件的定性研究,这种背景档案十分重要。 传记档案传记档案的对象是实地研究中的各种人物 参考书目档案将资料分析过程中,甚至整个研究过程中所查阅、记录下来的各种书目、文献资料都系统
26、地整理和归档。 分析档案即根据分析的主题将各种资料分别集中。这是资料分析过程中最主要的档案类型。,2、定性资料的编码,(1) 开放式编码 (2) 轴心式编码 (3) 选择式编码,(1)开放式编码,具体做法:研究者先设置一些主题,同时,将最初的代码或标签分配到资料中,以便将大量零散的、混杂的资料转变成不同的类别。研究者慢慢地阅读实地记录,寻找评论的项目、关键的事件或主题,标上记号。然后,在记录卡的边缘写一个初步的概念或标签,并用红笔或其他方式作出明显的标记。,主题来源:最初的研究问题、相关文献的概念、社会背景中人们所用的词语、研究者突发奇想的新想法等,(2)轴心式编码,是从一组初步的主题或概念开
27、始。在这种方式中,研究者更为注重的是主题,而不是资料。在这样做的过程中,研究者也会产生出新的观点、思想,或添加新的编码,并在分析过程中不断将各种观点、主题组织起来,同时识别作为轴心的关键概念。,(3)选择式编码,在浏览资料和前述的编码工作基础上,有选择地查找那些说明主题的个案,并对资料进行比较和对照。研究者在发展出某些概念,并开始围绕几个核心概念或观点来组织他们的总体分析时着手进行这种工作。,选择式编码可以说是在主题中找到一个可以统领其他一些相关主题的核心主题,将所有的研究结果统一在这个核心主题的范围之内。,3、形成概念,定性研究者根据资料来形成新的概念,或提炼概念。概念形成是定性资料分析过程
28、中一个完整的部分,并且它在资料收集时就已经开始。,4、撰写分析型备忘录,(1)涵义是实地笔记的一个特殊类型。它是实地研究者对于编码过程的想法和观点的一种备忘录或一种讨论记录。备忘录是研究者写给自己看的,或者说是研究者自己与自己进行讨论的一种笔记。,(2)分析型备忘录的主要目的,将自己在研究过程中产生的想法及时地记录下来。将分析集中到某些重要的现象、概念和主上。记录自己是如何发现这些重要的现象、概念和主题的。帮助自己理解资料的内容,记录下自己对有关问题的理解和思考。从资料中提升出主题,将资料内容逐步聚焦。提出今后继续进行研究的方向等。,(四) 定性资料分析的过程与方法,1、定性资料分析的基本过程
29、2、几种定性资料分析方法,1、定性资料分析的基本过程,(1)初步浏览阶段先对整个实地观察记录和访谈笔记等资料粗略地浏览一遍。目的:是对全部资料的整体有所了解和熟悉,同时也可以重新回想起许多实地参与中的情景和感受。研究者应该通读资料两遍。“投降”的态度,研究者把自己有关的前设和价值判断暂时悬置起来,让资料自己说话。研究者只有彻底敞开自己的胸怀,腾出一定的空间,才能让资料进入自己的心中。寻找意义,(2)阅读编码阶段,通常,研究者边阅读边根据具体内容做记号,以标签的形式表明各种具体事例、行为、观点的核心内容或实质,并将其归入所属的各种不同主题或概念备忘录中,形成了整理后的、具有更为清晰的内容框架的资
30、料。,(3)分析抽象阶段,2、几种定性资料分析方法,(1)连续接近法连续接近法指的是这样一种方法,它通过不断地反复和循环的步骤,使得研究者从开始时一个比较含糊的观念以及杂乱、具体的资料细节,到达一个具有概括性的综合分析的结果。(2)举例说明法即是用经验证据来说明某种理论。方式:一种是主要表明理论模型是如何说明或解释了某种特定的个案或特定的现象。研究者所列举的主要是一个个案或一种现象的证据。另一种是对一种理论模型的“平行说明”,即研究者平行列举多个不同的个案。,(3)比较分析法,一致性比较法这种比较法是将注意力集中于各个不同个案中所具有的共同特性上,并通过运用一种排除的过程来进行。其基本思想是:
31、研究者先找出不同个案所具有的某种共同的作为结果的特性,然后再比较各种作为可能的原因的特性。差异性比较法,(4)流程图方法主要是指以历史和现时发展过程为标准,对定性资料所进行的描述。这种方式的最大好处是能够很好地展现事物发展变化的过程。,四、资料理论分析,2、基本原则 必须坚持用正确的理论作指导,以科学的方法为工具。 坚持实事求是和实践是检验真理的唯一标准的原则 要保持调查资料的全面性与完整性。,1、涵义是资料分析的高级阶段和最终环节,它主要是 对调查得到的资料和统计得到的数据,运用各种思 维方法进行系统化的理论分析并作出结论的一种思 维过程。以定性分析和定量分析为必要前提。,3、理论分析常用的
32、方法,求同法、差异法、 同异并用法、 共变法、剩余法,矛盾分析法 具体和抽象分析法 现象和本质分析法,数量比较、质量比较 外形比较、原因比较 结构比较、功能比较等,分析系统的构成要素 分析系统的内在结构 分析系统的整体性质和整体功能 分析系统与外部环境的关系,因果分析法,辩证分析法,系统分析法,比较分析法,归纳与演绎方法,教学总结,学习调查资料的定性分析方法,要求学生能从宏观的角度学会收集资料、分析资料,概括和总结相关调查课题的主线,寻找规律。学习定量分析法主要是使学生消除对社会统计的陌生感和神秘感,初步建立自己对社会统计的理解,能够选择和应用不同的分析方法,为进一步学习打下基础。,作业,1、举例说明定性资料分析与定量资料分析有哪些主要不同。 2、找一份实际社会研究所用的问卷,对其编写一份编码簿。 3、从社会科学期刊中选择三遍研究报告,分析并评价这些研究中所采取的统计分析方法。,88,