1、第八章 调查资料的整理,对市场调查资料的最佳利用,不是其字面上的内容,而是其可能暗示的内容,要看出字里行间蕴含的意义。这些事实资料表明何种趋势、何种偏差、何种冲突、何种机会?对决策有用的信息,也许就存在事实资料之外。 -马克麦考马克,一、调查资料整理的基本知识,(一)资料整理的含义,所谓资料整理,是指运用科学的方法,将调查所得的原始资料按调查目的进行审核、汇总与初步加工,使之系统化和条理化,并以集中、简明的方式反映调查对象总体情况的过程,为分析研究准备数据。,市场调查资料整理的内容:,1.数据确认:是指对原始数据或二手资料进行审核,查找问题、采取补救措施、确保数据质量。 2数据处理:是指对问卷
2、或调查表提供的原始数据进行分类和汇总,或者对二手数据进行再分类和调整。 3数据陈示:是指对加工整理后的数据用统计表、统计图、数据库、数据报告等形式表现出来。,(二)资料整理的步骤,设计和编制资料整理方案。这是保证统计资料的整理有计划、有组织地进行的重要一步。资料的整理往往不是整理一个或两个指标,而是整理多个有联系的指标所组成的指标体系。对原始资料进行审核。资料的审核是第一步,为了保证质量必须进行严格的审核。综合汇总调查项目,对原始资料进行分组、汇总和计算是关键。对整理好的资料再进行一次审核,然后编制成一个统计表,以表示社会经济现象在数量上的联系。,(三)资料审核的内容和方法,1.资料接收:登记
3、与编号负责接收问卷的人员要事先设计好一定的表格,用于登记交付上来的问卷。表格上的项目一般包括调查员的姓名,调查地区,调查实施的时间,交付的日期,实发问卷数,上交问卷数,未答或拒答问卷数,丢失问卷数,其他问卷,合格问卷数等等。重要的是对不同调查员和不同地区(或单位)交付上来的问卷在登记之后要及时在问卷表面编号或注明调查员和调查地区等。否则大量的问卷混在一起,弄乱之后就会失去很多的信息。,2.审核的内容:,(1)齐备性:检查收回的问卷的份数是否齐全,是否达到了样本量的要求。(2)资料的真实性。检验问卷或调查表的真实性,调查资料来源的客观性问题。来源必须是客观的。抽样复检访问员是否到访,若访问员伪造
4、问卷应作废弃处理,并重新派员重访。,(3)资料的准确性。检查问卷或调查表中的项目是否存在填答错误。 准确的审核要着重检查那些含糊不清的、笼笼统统的以及互相矛盾的资料。 逻辑性错误答案,用电话核实或按“不详值”对待; 答非所问的答案,用电话询问或按“不详值”对待;,(4)资料的完整性。检查每份调查问卷填答的项目是否齐全。是否有缺损问卷;是否有答案模糊不清的问卷。并作出处理。 大量问项无回答应作废卷处理。 个别问项个别无回答,归入“暂未决定”或“其他答案”中。 个别问项大量无回答,可作删除此项提问。(5)时效性:检查调查访问时间和数据的时效性,所填资料是否是最新资料。,3.审核的办法:,(1)逻辑
5、审核。利用逻辑和经验判断的方法,检查问卷或调查表中的填答项目是否合理,项目之间有无相互矛盾的地方,有无不应有的空白,有没有不合理的填答,有没有即兴填答、答非所问或部分项目不回答等。(2)计算审核。计算审核主要是对数据进行计算性的检查,如分量相加是否等于小计,小计相加是否等于合计,数据之间该平衡的是否平衡,各项数据在计算方法、计算口径、计量单位、时间属性等方面是否有误等。,(四)对问卷的处理,1、对无效问卷的审定 无效的问卷指的是以下几种可能情况: 不完全的问卷,即有相当的部分没有填写的问卷; 被调查者没有理解问卷的内容而答错的,或是没有按照指导语的要求来回答的问卷。例如跳答的问题没有按要求去做
6、,等等; 回答没有什么变化的问卷也是值得怀疑的。例如在5级的态度量表中,不管是正向的还是反向的看法,填表人都只选4(比较同意)的情况;, 缺损的问卷,即有数页丢失或无法辨认的问卷; 在截至日期之后回收的问卷; 由不符合要求的其他人填写的问卷,例如在一项商品调查中,调查对象是2070岁的成年人,因此在这个范围之外的人所填写的问卷都应视为无效; 前后矛盾或有明显错误的问卷,例如年龄为20岁,职业为退休人员;或是年龄为60岁,职业为中学生之类的问卷均为无效。,2、按缺失数据处理的问卷,在实践工作中,常会因为某些原因导致数据缺失,只能观测到一部分数据,统计学中一般称为缺失数据。原因:信息暂时无法获取信
7、息是被遗漏的某个或某些属性是不可用的某些信息(被认为)是不重要的获取这些信息的代价太大系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策,在以下三种情况,按缺失值来处理是可行的: 不大符合要求的问卷数较少时; 这些问卷中不大符合要求的问答的比例也很小,或者 对应于不合要求的问答变量不是关键变量时。,缺失数据处理方法,直接删除:也就是将存在遗漏信息属性值的对象(元组、记录)删除,从而得到一个完备的信息表保留缺失数据不予处理:不对缺失数据做任何处理。特殊值填充:将缺值作为一种特殊的属性值来处理,它不同于其他的任何属性值如所有的缺值都用“unknown”填充,这样将可能导致严重的数据偏离,
8、不推荐!,可能值插补缺失值 :用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来对一个空值进行填充,譬如用其余属性的平均值来进行补充等。或者在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充 与前面的方法相比,它是用现存数据的多数信息来推测空缺值 其他方法:参考统计学中的介绍。,3、可以丢弃的问卷,在以下四种情况下,不大符合要求的问卷(即调查对象)可以丢弃: 不大符合要求的被调查者(问卷)的比例很小(低于10),而样本容量很大;不大符合要求的调查对象与符合要求的调查对象之间没有明显的不同(例如在人口特征、媒介接触行为或商品使用
9、行为方面);准备丢弃的每个调查对象所完成的问卷不符合要求的回答占很大的比例;对关键变量的回答是缺失的。,二、调查问卷的编码和录入,(一)数据编码 数据编码就是给每个问题的每个可能答案分配一个代码,通常是一个数字。 编码可以在设计问卷时进行,也可以在数据收集结束后进行,分别叫事前编码和事后编码。,1.事前编码(Pre-coding) 事前编码的问卷通常是将每个答案的对应值印在问卷上,数据文件用的记录格式常常放在最右边或放在某处的括弧内。有位置预编码和变量预编码,2.事后编码(Post-coding) 事后编码指的是给某个没有事先编码的答案分配一个代码。通常需要事后编码的有: 封闭式问题的“其他”
10、项 开放式问题,事后编码通常可遵循以下的要点:,提供编码员一份空白的“参照问卷”。提供每个需要事后编码的项目一份编码表或编码名单。对每一个项目做一份编码本。内含一页或几张单页。让所有的编码员都在同一地点、使用同一编码进行工作。 提供编码指南,说明什么时候以及怎样设立一个新代码或合并答案。 设立较多较窄的类别要优于设立较少较宽的类别保持编码册的整洁和清晰。,(二)数据录入:,录入是将经过编码的数据资料输入计算机的存储设备(软盘、硬盘或闪存)中,这样便可供计算机统计分析了。数据的录入形式有两种,一种是以单独数据文件的形式录入和存在,另一种是直接录入专门的统计分析软件中(如Excell 、SPSS)
11、。这个过程需要数据录入装置(计算机)和一个存储介质(数据库软件、磁盘)。,SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。,SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代
12、末研制,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。迄今SPSS软件已有40余年的成长历史。全球约有25万家产品用户,它们分布于通讯、医疗、财会、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。,大多
13、数问卷信息通过智能录入系统进行,即用相关的数据库软件包。 数据库软件不仅可以存储数据,而且在录入过程中,通过事先的数据库结构的编辑,可以对录入员录入的过程进行逻辑检查,避免数据录入过程中出现某种类型的错误,如录入无效的编码或者是太广的编码,同时对于跳答问题的录入也能进行很好的控制,减少错误的出现。,核查录入结果,为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。 所谓双机录入的方式,是将同一份问卷分别由两个录入员进行两次录入,将两次的结果进行逐个比较,相同的部分是被认为没有错误的,如果出现不同的部分,检查问卷,及时修正。 所谓三机录入,即将同一份问卷由不
14、同的录入员录入3次,将3次的结果通过计算机进行比较,采用“2排1”的选择,如果 2个结果是相同的,排除那个不同的答案。三机录入的方式可以减少翻阅问卷的人工劳动。,无论是双机录入还是三机录入,都会增加调查的时间和费用成本,而且是成倍地增加。但是为求得数据的收集录入各个环节的准确性,越来越多的企业和市场调查公司要求数据的正确录入的操作。,数据录入举例,如将下图问卷的编码中出现的问题进行录入,问卷编号,城市编码,调查员编号,Q1、Q2、Q3Q12-1、Q12-2、Q12-3、Q13、Q14,对应的数据库结构见下图。这样,输入时每份问卷按数据库中指定的位置输入相应变量的取值,一行数字就是一份问卷。结果
15、所有问卷依次输入完毕就形成一个数据库。,(1)问卷编码是001号,城市是北京市,12号调查员完成的问卷,圈选的结果是:Q1男性;Q230岁;Q3大学专科; Q12圈选的2 3 5;Q13 非常同意;Q14不同意;(2)问卷编码是005号,城市是上海市,2号调查员完成的问卷,圈选的结果是:Q1女性;Q222岁;Q3大学本科;LL Q12圈选的1 3;Q13 不同意;Q14非常同意;对应的数据库1)001112130423552; 2)005202222513045,三、数据的汇编、制表与制图,(一)统计分组,1.统计分组的含义 统计分组,是指根据市场调查的目的和要求,按照一定标志,将所研究的事物
16、或现象区分为不同的类型或组的一种整理资料的方法。,2.统计分组的作用,可以找出总体内部各个部分之间的差异。可以深入了解现象总体的内部结构。可以显示社会现象之间的依存关系。,举例:统计分组可以深入了解现象总体的内部结构,我国三次产业分类的从业人员构成情况 单位(%)产业年份 1993 1994 1995 1996 1997 第一 56.4 51.3 52.2 50.0 49.9 第二 22.4 22.7 23.0 23.5 23.7 第三 21.2 23.0 24.8 26.0 26.4 合计 100.0 100.0 100.0 100.0 100.0,举例:统计分组可以显示社会现象之间的依存关
17、系。,某地区粮食单位面积产量和施肥量的关系每公顷化肥施用量 粮食单位面积产量 (千克) (千克/公顷) 116.25 2827.5 133.50 3124.5 145.50 3396.0 153.75 3608.3 163.50 3484.0,3.统计分组标志的选择,分组标志,就是分组的标准或依据。 选择分组标志,是数字资料分组中的关键问题 ,直接关系到分组的科学性,关系到分组结果能否正确反映调查对象的总体情况。,正确分组必须遵守以下原则:1、根据调查研究的目的和任务选择分组标志2、选择能够反映被研究对象本质的标志。3、应从多角度选择分组标志,并不是唯一性的。,分组的标志或标准一般可以区分为:
18、 品质属性、 数量属性、 时间属性、 空间属性。,4.统计分组的类型,根据分组标志的数量分为: 简单分组 复合(平行、交叉)分组,(1)简单分组: 是指对总体各单位或样本各单位只按一个标志或标准进行分组处理。,例如:某市组织了一次样本量为2000户的居民家庭空调满意度和购买行为的市场调查,设计的问项是36个,其中基本项目9项,主体项目27项。,按品质标志分组,以被调查者的职业、所属行业、性别、文化程度、职业等品质属性作为分组标志而形成的简单品质数列。 按品质标志分组,可以把不同性质或类别的事物区别开来,有利于认识不同质的事物的数量特征,有利于揭示事物的质与量之间的关系。,某市居民家庭空调拥有量
19、品牌分布,按事物的数量标志分组,是以被调查者的年龄、收入、消费支出、家庭人口、就业人口等数量属性作为分组标志形成的变量数列。 按数量标志分组,可以把不同的发展规模、水平、速度、比例的事物区别开来,有利于从数量上准确地认识客观事物,有利于揭示事物数量特征之间的相互关系。,单项式变量数列。适应于离散型变量(如家庭人口、就业人口、耐用品拥有量、需求量等)的分组处理,即直接以变量的不同取值作组别而编制的变量数列。,组距式变量数列。适应于连续变量(如年龄、收入、消费支出等)的分组处理,即以变量的不同取值区间作为分组的组别而编制的变量数列,,按时间标志分组,是以调查问卷中的一些时间属性的调查项目(如购买时
20、间、需求时间)作为分组标志,对被调查者的时间选项进行分组而形成的时间数列。 按时间标志分组,可把不同时点或时期上的事物区别开来,有利于认识事物在不同时点或时期的发展状况,有利于揭示事物不断运动,变化、发展的规律。,按空间标志分组,是以调查问卷中的某些具有空间属性的调查项目(如被调查者的居住区域、购买产品的场所等)作为分组标志而形成的空间数列。 按空间标志分组,可以把不同地域的事物区别开来,有利于了解事物在空间上的分布状况,有利于对不同地理位置、区域范围内的事物进行对比研究。,(2)平行分组 对总体各单位或样本各单位同时采用两个或两个以上的标志或标准进行平行排列的分组,所编制的分组数列称为平行分
21、组数列。,A.两变量(项目)平行分组数列。它是将两个有联系的调查项目按相同选项分组的结果并列在一起而编制的平行分组数列。,B.多变量(多项目)平行分组数列。这是将两个以上有联系的调查项目按相同选项分组的结果并列在一起而编制的平行分组数列。常用于产品或服务满意度测评、被调查者态度测量等原始资料的加工开发。,(3)交叉分组处理: 是对总体各单位或样本各单位采用两个或两个以上的标志或调查项目进行交叉分组,所编制的数列一般表现为相关分组数列或复合分组数列。,A.基本项目之间的交叉分组处理。 它是利用反映被调查者基本情况的基本调查项目之间的关联性进行交叉分组处理。,B.基本项目与主体项目之间的交叉分组处
22、理。 它是利用问卷中的基本项目与主体项目之间的关联性进行交叉分组处理,用以揭示不同性别、不同年龄、不同行业、不同职业、不同文化程度、不同居住区域、不同家庭人口的被调查者对研究的主体项目选项回答的差异性、相关性等深层次问题。如下表两变量交叉列表。,C.三变量交叉列表。,开放式问题的分类归纳,“意见分类归纳法”的基本思路和程序: (1)集中所有同一个开放式问题的全部文字性答案,通过阅读、思考和分析,把握被调查者的思想认识。 (2)将被调查者的全部文字性答案,按照其思想认识不同归纳为若干类型,并计算各种类型出现的频数;制成全部答案分布表。,(3)对全部答案分布表中的答案进行挑选归并,确定可以接受的分
23、组数。一般来说,应在符合调研项目的前提下,保留频数多的答案,然后把频数很少的答案尽可能归并到含义相近的组,应考虑调研的目的和答案类型的多少而确定,一般应控制在10组之内。(4)为确定的分组选择正式的描述词汇或短语。不同组别的描述词汇或短语应体现质的差别,力求中肯、精炼、概括。(5)根据分类归纳的结果,制成正式的答案分布表。,例如,在一项关于居民空调购买行为的调研中,问卷中,设置了“你对静音空调这个产品概念有何看法?”的开放式问项,被调查者的回答是多种多样的,通过分类归纳得到的答案分布表如下。,(二)次数分布,次数分布:是将总体中的所有单位按某个标志分组后,所形成的总体单位数在组之间的分布。分布
24、在各组的总体单位数叫次数或频数。各组次数与总次数之比叫做比重、比率或频率。 次数分布实质:是反映统计总体中所有单位在各组的分布状态和分布特征的一个数列,也可以称做次数分配数列,简称分布数列。,分布数列,分布数列的两大组成部分: (1)各组名称(或)各组变量值 (2)各组单位数(次数)。变量数列的种类及计算: (1)单项变量数列; (2)组距变量数列,举例:单项变量数列,按日产量分组 工人人数 比重 (件) (人) (%) 25 10 6 26 20 10 27 30 17 28 50 28 29 40 22 30 30 17 合计 180 100,举例:组距变量数列,按计划完成程度分组 企业数
25、 比重(%) 100以下 6 21.3 100110 16 57.4 110以上 6 21.3 合计 28 100.00,(三)变量次数分配的编制,按数量标志编制次数分配,所形成的结果称为变量次数分配。变量次数分配的编制程序如下:将原始资料顺序排列确定组数和组距确定组限将各个数据按其数值大小归入相应的组内,组数的确定,应从实际出发。 当数量标志的变动范围很小,而且标志值的项数不多时,可直接将每个标志值都列为一组。这时,组数等于数量标志所包含的标志值的项数。如,调查农村学龄儿童入学率,就可将每一岁的儿童分成一组。 当数量标志的变动范围很大,而且标志值的项数又很多时,就可将一些邻近的标志值合并为一
26、组,作为分组的依据,以减少组的数量。,组距,就是各组中最大数值与最小数值之间的差距。 组距数列中,各组组距相等的,叫等组距数列,各组组距不相等的,叫不等组距数列。编制组距数列时,应从实际情况出发,来决定采用等组距数列或不等组距数列。,如编制等组距数列,应在对总体资料的内部情况进行分析的基础上,先确定组数,再用全部变量的最大数值与最小数值之间的差距,即全距除以组数,就可得出组距的大小。,举例:变量次数分配的编制,假设某企业30个非熟练工人的周工资额(元)如下:106、99、85、121、84、94、106、105、110、119、101、95、91、87、105、106、109、118、96、1
27、28、91、97、105、111、111、107、103、101、107、106。,举例:变量次数分配的编制,第一步:按从大到小的顺序排列数据 84、85、87、91、91、94、95、96、97、99、101、101、103、105、105、105、106、106、106、106、107、107、109、110、111、111、118、119、121、128,举例:变量次数分配的编制,举例:变量次数分配的编制,第二步:确定组数和组距第三步:确定组限第四步:将相同的数据归入同一组,并汇总各组数值的个数,分组方法选择,方法有:等距分组和不等距分组 选择等距分组还是不等距分组,主要根据研究的目的和
28、观察值的特点决定。 如果研究目的是要从数量上区分不同性质的类别,就必须根据被研究现象各类别在数量上的特点确定各组组距, 如果所收集的原始数据中有极端值存在,为避免组数太多,分布特征无法详实的情况,也可以采用不等距分组,在数据分布密集的地方用较短组距,在数据分布疏散的地方采用较长组距。,举例:不等距分组的变量次数分配编制,某地区人口年龄分配情况 按年龄分组 人口数(万人) 1岁以下 2 17岁 12.2 718岁 24.0 1825岁 14.8 2555岁 34.2 55岁以上 16.3 合计 103.5,某地区个人年收入额分配 按年收入额 各组所占百分比 分组(元) ( )05,000 23.
29、95,00010,000 34.810,00015,000 20.115,00045,000 17.2845,00075,000 1.7475,000105,000 0.88105,000135,000 0.81135,000以上 0.48 合 计 100.00,(四)制统计表,表的结构:标题、横标目、纵标目、数字。表的种类:简单分组表、复合分组表。制作方法:制作应遵循科学、实用、简练、美观原则。制表应注意以下问题: 1) 标题简单明了。 2)如表格栏数多,应对栏数加以编号。 3)数字要填写整齐,对准数位。 4)凡需说明的文字一律写入表注,(五)统计图,统计图是以圆点的多少、直线长短、曲线起伏
30、、条形长短、柱状高低、圆饼面积、体积大小、实物形象大小或多少、地图分布等图形来陈示调研数据。 统计图的种类: 条形图或称柱状图、 圆形图、 曲线图、 象形图。,统计图的作用:表明事物总体结构。表明统计指标不同条件下的对比关系。反映事物发展变化的过程和趋势。说明总体单位按某一标志的分布情况。显示现象之间的相互依存关系。,1直线图,直线图是以直线的长短来表示品质属性数列中各组频数或频率大小的图形。常以横轴代表品质属性的不同组别,纵轴代表各组的频数或频率。,2条形图 是以若干等宽平行长条或圆柱的长短来表示品质属性数列中各组频数或频率大小的图形。常以横轴代表不同的组别,纵轴代表各组的频数或频率; 亦可
31、用纵轴代表各组,横轴代表频数或频率。,3圆面图 是以圆形的面积代表总体指标数值,圆形的各扇形面积代表各组指标数值,或将圆形面积分为若干角度不同的扇形,分别代表各组的频率。实际应用时亦可将圆面改为圆饼或圆台,变成圆形立体图。,4直方图 直方图是以若干等宽的直方长条的长短来表示各组的频数或频率的大小。常用于表现组距数列的次数分布或频率分布。离散型变量组距的直方图中的长条应间断,连续变量组距数列的直方图中的长条应连接起来。,5动态条形图 动态条形图是以宽度相等的条形的长短或高低来比较不同时期的统计数据的大小的图形,用以显示现象发展变化的过程和趋势。 动态条形排列可以是纵列(垂直条形图),也可以是横列
32、(水平或带状条形图)。按图形中涉及的统计指标或变量的多少不同,可分为单式条形图、复式条形图、分段条形图等。,6动态曲线图 动态曲线图又称时间数列曲线图或历史曲线图,它是以曲线的升降、起伏来表示数据的动态变化。按涉及指标的多少,有单式曲线图和复式曲线图之分。,7统计地图 统计地图是以地图为底本,利用点、线条、面积、数据、象形、标志等来表现各区域某种统计指标数据的大小及其在地理上的分布情形,又称空间数列图。 根据所利用的图形不同,统计地图可分为数据地图、点地图、面地图、象形地图、线路地图、标志地图等等。下图是某市居民购房的区域选择分布地图。,思考题,1. 资料的整理主要包括哪些内容?2 .资料的审核包括哪些工作?3.什么是缺失数据?处理缺失数据有哪些主要的方法?4 .什么是统计分组?统计分组有什么作用?5.统计分组的标志和类型各有哪些?,