1、1,第十章市场调查数据的录入与分析,一、调查问卷的回收与编辑 数据资料的处理过程是从回收第一份问卷开始的。按照事先调查方案的计划,尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正确的方式执行完成的问卷)。问卷回收以后,督导员必须按照调查的要求,仔细的检查问卷。检查问卷的目的在于将有错误填写,或者是挑出不完整或不规范的问卷,保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该调查员完成的问卷可能存在很多问题。还有可能出现漏答了某些必须回答的问题,比如被访者的人口特征等基本情况,造成
2、问卷回答不完整。鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种方式进行补救:对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充未答的问题;如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的抽样条件,补作相关的样本。,1、问卷检查问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确定哪些问卷可以接受,哪些问卷要作废。检查的要点包括: (1) 规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。 (2) 对于每份调
3、查员交回来的问卷必须彻底地检查,以确认调查员或者被访者是否按照相关的要求完成了访问,并且完整的记录在问卷恰当的位置。 (3) 应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷,第三种是有问题的问卷,但是通过追访还可以利用的问卷。,(4) 如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统计分析,确定问卷是否完成配额的要求,以便及时的补充不足的样本。 (5) 通常有下面的情况的问卷是不能接受的:所回收的问卷明显不完整,缺了一页或者多页;问卷中有很多内容没有填答;问卷的模式说明调查员(被访者)没有理解或者遵循访问指南回答等;问卷的答案几乎没有什么变化,如在态度的选项上全部选择第
4、项的情况;问卷的被访者不符合抽样要求;问卷的回收日期超过了的访问的时限等。,2、问卷的校订为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选的、前后回答不一致的、答案模棱两可的和跳答错误的问题。 问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必须对受访者进行追访,将积极不清楚的地方填写清楚。,对于漏选的问题处理方法也是一样,出现漏选的题目因为各种原因,无法进行补充访问事后,普通的问题,而且数目不大的情况,通常作为缺失值处理;如果涉及
5、到是受访对象的个人特征的问题,通常只能作为废卷处理。 问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用了不是通用的缩写方式或词语,或者在该单选一项的问题中,圈选了两项等,都必须通过追访进行补救。另外就是回答时可能出现跳答错误的情况,这可能是因为被访对象没有很好的理解问题。如果出现这种情况,首先要核实被访对象是否符合抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符合条件,问卷只能作废,重新补充样本。 问卷的回收、检查与校订可能是非常繁琐、且工作时间很长的工作,但是却是保证数据处理过程中较少误差的重要的步骤。,3、问卷的编码编码是指对一个问题的不同答案进行
6、分组和确定数字代码的过程。大多数问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组问题的不同答案的数字编码已经确定。 而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案,而且有些答案是非常类似的,必须决定是否合并成一类呢,还是分成不同的代码。具体地说明编码需要以下几个步骤: (1) 每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细的标注在编码表的顶端位置,由于事先不知道会有多少新的代码或答案出现,所以一定要
7、预备足够的空间。,(2) 如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但实际上,因为需要编码的问题可能很多,一个认识没有办法按时完成的,这就需要多个编码员。在这样的情况下,一定要注意多个编码员工作的协调。应该安排编码员在不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码重复的情况。 (3) 研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将其归类,以及如何分配编码等等,并同时对编码的过程进行监督和检查。编码员在编码的过程中可能有两种倾向:一种是事无巨细将出现的每一种答案够给与新的代码,结果代码的数量比预料的要多出很多;另一种情况是对答案的归类过于粗
8、糙,可能丢弃了数据中有意义的差异。对于这两种情况都必须通过守则的规定,尽量避免。碰到无法确认的分类的时候,通常的做法是付与一个新的代码,如果需要合并,可以在将来的数据处理过程中完成。 (4) 可以对“不知道”、“无所谓”、“不清楚”、“缺失”事先规定,但是一定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。 (5) 编码的字迹必须清楚,如果可能的话,及时的进行计算机的录入管理。,二、调查资料的录入和整理 1、数据录入 数据录入是指将问卷或编码表中的每一个项目对应的代码转化成计算机能够识别的形式的过程。这个过程需要数据录入装置(计算机)和一个存储介质(数据库软件、磁盘)。市场调查发达的
9、国家在数据的采集中使用CATI、CAPI的方式很普遍,因此键盘录入的过程已在访问的时候就已经完成了。而且对于简单的问卷调查,使用调查卡进行光学扫描录入也能从时间上节约不少成本。但是国内目前主要还是纸面问卷调查的形式居多,所以在问卷完成后,还需要对问卷进行录入的操作。 大多数问卷信息通过智能录入系统进行,即使用相关的数据库软件包。数据库软件不仅可以存储数据,而且在录入过程中,通过事先的数据库结构的编辑,可以对录入员录入的过程进行逻辑检查,避免数据录入过程中出现某种类型的错误,如录入无效的编码或者是太广的编码,同时对于跳答问题的录入也能进行很好的控制,减少错误的条约模式。,数据库软件的录入检查的范
10、围,限制在最常见的逻辑错误上,对于在选项范围内,因为录入员的疏忽而出错的信息,往往是不能察觉,而录入员在问卷的输入过程中,因为速度非常快,即使是非常老练的录入员,也会出现录入错误的情况。 为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。所谓双机录入的方式,是将同一份问卷分别由两个录入员进行两次录入,将两次的结果进行逐个比较,相同的部分是被认为没有错误的,如果出现不同的部分,检查问卷,及时修正。所谓三机录入,即将同一份问卷由不同的录入员录入3次,将3次的结果通过计算机进行比较,采用“2排1”的选择,如果 2个结果是相同的,排除那个不同的答案。三机录入的方
11、式可以减少翻阅问卷的人工。 无论是双机录入还是三机录入,都会增加调查的时间和费用成本,而且是成倍地增加。但是为求得数据的收集录入各个环节的准确性,越来越多的企业和市场调查公司要求数据的正确录入的操作。,2、对于缺失值的处理在数据整理中,经常会碰到缺失值的问题,缺失值的数量过多的话,说明数据收集过程中存在着严重的问题。可以接受的标准是,缺失值的数量在10%以下。处理缺失值的方法有下面4种: (1)用一个样本统计量的值代替缺失值 缺失值可以使用一个样本的统计量去代替,最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变,其他的统计量如标准差、相关系数等都不会受到影响。如在收入或者年龄
12、问题中出现缺失值,可以使用收入、年龄的平均值代替缺失值。,(2)用从一个统计模型计算出来的值去代替缺失值 另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替,常使用的模型有回归模型、判别模型等等。如“个人收入”、“ 年龄”与“品牌的选择”可能存在关系,利用这三个问题的被访者问答数据,可能构造出一个回归方程。根据这个回归方程,对于没有回答“品牌选择”的被访者,可以根据“个人收入”和“年龄”的选项,利用回归方程式,计算出品牌选择的值。 (3)将有缺失值的个案删除 将有缺失值的个鞍删除的方法,结果可能会导致样本量的减少,如果调查在收集过程中控制得不是很好,被访对象多多少少都会出现
13、一些问题没有回答的情况,删除个案的方法,会导致大量的样本减少。 (4)将有缺失值的个案保留,仅在相应的分析中做必要的删除 将有缺失值的个案保留,仅在相应的分析中做必要的排除的方法,会使分析中不同计算的样本量不同,也有可能导致不适宜的结果。调查的样本量比较大,缺失值的数量又不是很多,而且变量之间也不存在高度的相关的情况下,市场研究者经常采用这种方式处理缺失值。,3、数据的整理 如果在录入过程中,没有实行双机录入(三机录入)的措施,在录入完成之后,有必要对数据进行全面的整理检查。数据整理主要是尽可能的处理错误或不合理的信息以及进行一致性的检查。虽然经过回收问卷、编码过程以及录入的重重检查,但是数据
14、的整理过程是使用计算机进行的,对数据的矫正将更为彻底。 数据整理可使用SPSS或SAS统计软件进行,可以很方便的寻找出超出选项范围、极端值或逻辑上不一样的数据。通常的做法是首先对所有变量进行频数的计算,对连续性的变量进行均值、标准差、最小值、最大值等统计分析,超出范围的数据和极端的数值很容易检查出来。例如,图15-1问卷的编码的调查中,关于年龄的填写,假定缺失值为“0”,如果出现小于16,或者大于60的数值就是超出范围的。根据对应的问卷编号,变量编码找出问卷,进行核实。,三、统计分析根据研究的目的与要求,要选择不同的统计方法。如果是对一个变量取值的归纳整理及对其分布形态的研究,用频数分析(计算
15、百分比等)、众数、中位数、均值和标准差等方法或统计量来描述;对两个变量的相关性分析,可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法;对多个变量间的相关性分析,可以用多元线性回归、判别分析、聚类分析、因子分析等方法。 现在普遍使用的统计软件是SPSS、SAS。 1、频数和百分比所谓频数(Frequencies),时变量某一个去值的个案数;所谓百分比(Percentage),是表示该取值的个案数占总样本的比例,即频数/样本量100%。将变量所有取值的频数和百分比列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。 频数表分析方式一般适用于定序变量和定类变量,对定
16、距变量,必须先将变量的取值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计算。,表中第一列是“变量标签”,是对变量取值的说明(现在使用的SPSS软件虽然是英文版,但是已经可以兼容中文,变量标签可以使用中文表示)。 第二列是 “频数”,对应的数值表示各个取值的个案数,第三列是“百分比”,是频数对样本量(501人)的比率。 第四列是“有效百分比”,是频数对有效个案数(所谓有效个案数,即样本量减去缺失个案数)的比例,这里有效个案数是436人。 第五列是“累计百分比”,是对有效百分比的逐行累加的结果。 频数和百分比计算中,百分比大小比较是一个相对的概念,频数大小则是绝对的数值,在
17、市场分析报告中,经常利用百分比来说明结果,但是有时也需要频数进一步的说明之间的差异。在比较两个公司的营业额的增长幅度时,A公司和B公司的经营规模差异巨大的情况下,虽然A公司的增长幅度没有B公司快,这是因为A公司的实际规模可能是B公司的几十倍,在这种情况下,也需要比较增长的实际数额,才能全面的说明问题。,2、众数、中位数、均值和标准差用于描述一组市场调查数据或资料的中心的常用的统计量有三种:众数、中位数和平均数。所谓众数(Mode),是表示一组数据中出现次数最多或最常见的数值。在市场调查的数据中,众数代表了典型的个案,或者是分布的高峰所对应的变量取值。变量的所有取值中频数最大的取值,如在消费者的
18、教育程度问题里,初中学历程度选项最多,所以初中相对应的变量编码,就是众数。众数适于描述定序和定类变量,对于定距变量,可先将数据分组,分组后频数最大的那一组的组中值,被近似的认为是该变量的众数。,中位数(Median)表示一组数据按照大小的顺序排列时,中间位置的那个数值,即针对某个变量,有50%的个案的取值在中位数以下。通俗的讲,样本的所有观测值中,有一半数比中位数大,有一半数比中位数小。中位数的计算时会面临两种情况:当样本数(n)是奇数时,将样本的所有观测值按由小到大(或由大到小)的顺序排列,排在中间位置上的数值即为中位数;当样本为偶数时,排在中间两个位置上的数值的平均值即为中位数。中位数适用
19、于定序变量,对于定距变量,还是首先对观测值进行分组,简单的方法就是用中间那一组的组中值作为变量的中位数。,平均数(Mean)也叫均值,等于样本的所有n个观测值之和除以样本量。假设n个观测值用x1,x2,x n表示,均值用 x 表示,均值的公式为: 这里公式(2)是针对分组的数据而言,其中X表示某变量的取值,f 表示变量落在某一组中的频数, 表示对所有的值求和(或者对所有的组求和)。 平均数是最典型也是最常用的统计量,适用于定距变量和定比变量。平均数也是最有“意义”的统计量,它可以看作是数据的“平衡点”或“重心”位置所在。因为中位数在计算时,使用到了所有的数据,所以与众数和中位数相比,所包含的信
20、息量最大。但是平均数受受极端值的影响很大,个别的极端值会直接影响平均数的熟知的变化,不如中位数和众数稳定。因此当调查的数据分布比较规则,不存在什么极端值,或数据对中心的偏离不是很大的情况下,平均数是很好的描述统计量;如果存在极端值或分布步偏离比较大时,还必须使用众数和中位数的来补充描述。,众数、中位数、均值都是对变量分布中心的描述,其中均值最为常用。 对变量的分布形状的描述,最常用的统计量是方差或标准差。所谓方差(Variance)或标准差(Standard variance)是表示分布对平均数的偏离程度或伸展程度的度量。计算公式是: 标准差 ,标准差的大小反映了数据对均值的离散程度,标准差越
21、小,表明数据越集中于均值附近,反之则越分散。任何统计分析软件都有标准差的计算,标准差是描述分布的分散(伸展)程度的经常使用的统计量。众数、中位数、均值都是对变量分布中心的描述,其中均值最为常用。 对变量的分布形状的描述,最常用的统计量是方差或标准差。 所谓方差(Variance)或标准差(Standard variance)是表示分布对平均数的偏离程度或伸展程度的度量。计算公式是: 标准差 ,标准差的大小反映了数据对均值的离散程度,标准差越小,表明数据越集中于均值附近,反之则越分散。任何统计分析软件都有标准差的计算,标准差是描述分布的分散(伸展)程度的经常使用的统计量。,3、使用图形表示分析的结果使用图表的形式将更为直观的描述调查的结果,有助于客户更容易理解数据的内容。在报告中使用的图形的格式非常多,最经常使用的包括直方图、面积图、折线图和雷达图等形式。 直方图 2面积图 (资料来源:IMI消费行为与生活形态年鉴2001版) 3折线图 北京地区巧克力消费者收看电视的习惯折线图,