1、市场调研问卷题型分析与处理纪浩然学习导航通过学习本课程,你将能够:学会 对单选题进行多角度的分析;掌握多选题和排序题的分析与处理;提升市场调研问卷的质量。市场调研问卷题型分析与处理一、单选题的分析单选题是市场调研问卷中最常用和最简单的题型,在 SPSS 的分析中又是分析方法最为丰富的题型。单选题的录入方式比较简单,基本上就是 SPSS 文件的一列对应一道单选题目,单选题的答案用数字表示即可。比如,单选题有 6 个选项可供 选择,受 访者任选其一并填写即可。如图1 所示。需要注意的是,在单选题录入时,必须在“值标签”中为每个选项注明标签,以便后 续分析。图 1 值标签1.频次分析频次分析简述频次
2、分析,是指分析各个选项出现的次数,体 现的是受访者的倾向性。比如某一 问题有 6个选项,客户有的选 1,有的选 3,有的选 6 等,通 过统计各个选项的次数就可以看出受访者对各个选项的倾向性。频次分析示例操作过程。在 SPSS 的“ 描述 统计” 基本分析模块中,频次分析被称为“频率分析” ,例如点击“hao123”网站进入“ 频率分析”后,常见的做法是将所有选项全部选中,然后在“ 统计量”中将数值设定得大一些,因为在做 频次分析时, 实际上是在 进行数据探索,所以可以 选四分位数,表示数值的波动范围较大。这 里的“范围”也称“全距”,指的是最小值和最大值的差。然后将最大值、最小 值、均值的标
3、准差以及偏度、峰度等全部 选 中。在“图表” 选项中选择“直方图”,因为“ 直方图”是一个很好的频次分析工具,同 时在“直方图” 上勾选“ 显示正态曲线”。这时对格式可以先不作处理,然后点击“ 确定” 并输出表格。直方图可以很好地显示数据分布的规律。如图 2 所示。图 2 直方图示例结果解读。由于选中的项目很多,所以输出的表格包括有效值、缺失 值、均值等多项内容可供观察,其中最重要的是要关注其中的表格,包括性 别中男性、女性各 12 人的数量统计,学历中大专以下 3 人、大专及本科 10 人、 硕士以上 11 人的数量分布等,这种表格在市场调查报告中会经常出现,同时还包括是否喝啤酒、 选择啤酒
4、的品牌以及 购买渠道等内容。在表格中,累积的百分比在数字型图表中经常会出现,比如在年龄分布中, 30 岁以下的人在整个受众中所占百分比为 58.3%,40 岁以下的人所占百分比是 91.7%,二者之间的比例通过减法运算即可得知,这样就能反映出整个问卷这方面的状况。正所谓“看表不如看 图” ,在直方图中可以看到很多信息。比如,在年 龄分布上 20 岁的人群较多,在品牌选择上各种品牌的分布情况,以及各种购买渠道的分布等。总而言之,频次分析是问卷数据预处理后的第一项分析工作,从中可以挖掘很多有用的信息,包括百分比、累积百分比、学 历分布、品牌选择分布等。2.分组求均值分组求均值简述分组求均值是单选题
5、分析中的一项重要内容,在市场调查中,经常要按照男女性别或是不同年龄段,分析客户的产品 选择, 这时就会用到 SPSS 的分组求均值。分组求均值示例示例一。操作过程。在观察不同性别和不同学历受众的啤酒消费差别状况时,首先 进入SPSS 的“分析 ”,然后选择 比较 均值,将学 历放入自变量,将是否喝啤酒设为因变量,如图 3 所示,表格中共有学历、均值、个案数和 标准差四项。需要注意的是,一般来说,Anova 表要勾选。图 3 示例“ 是否喝啤酒 学历”结果解读。进入分析后,选择“继续” “确定”并输出结果。案例处理的摘要说明,本次操作处理了 24 条数据,比例为 100%,然后是不同学 历 受访
6、者是否喝啤酒的选择均值因为喝啤酒选 1,不喝啤酒选 2,所以均值越小,说明喝啤酒的可能性越大。之后,Anova 表会显示出“显著性”数值,这里的数值是 0.781,将其与标准值 0.05 进行比较可知结果是不显著,从商业结论上而言也就意味着不同学历分组在喝啤酒上的倾向无差别。分组求均值示例一的直方图如图 4 所示。图 4 直方图“ 是否喝啤酒 学历”示例二。操作过程。进入 SPSS 的“数据”模块,选择“比较均值” “均值” ,将性别选入并确定,然后将喝啤酒定为 1,不喝啤酒定 为 2,然后在变量视图中勾选值标签,输出结果。图 5 示例“ 是否喝啤酒 性别”结果解读。如图 5 所示,输出结果中
7、男性喝啤酒的均值是 1.25,女性喝啤酒的均 值是 1.5,由于之前设定的是 1 为喝啤酒,2 为不喝啤酒,而男性的均值更接近 1,也就意味着男性更喜 欢喝啤酒。这里的显著性为 0.223,大于之前 显著性基本假设的标准值 0.05,也就是男性和女性在喝啤酒喜好上的差别不明显,这一假设可以接受。 这 里用到的是假设检验,基本方法是大于0.05 接受假设,小于 0.05 推翻假设。图 5 对应的直方图如图 6 所示。图 6 直方图“ 是否喝啤酒 性别”绘图箱图。绘图是一种直观化的数据分析方式,首先可以选择第一种图最简单的箱图,比如定义想要观察不同学历的受访者是否喝啤酒的状况,具体的特征选择均值,
8、接着将是否喝啤酒放入 y 轴,然后点击学历 将其放入 x 轴, 这样就可以看到不同学 历受访者喝啤酒的分布状况。条形图。首先选择旧对话框中的条形图,然后 选择复式条形图, 这种图包含的信息比箱图更为丰富。比如定义选择品牌,然后在 类别轴中放入性 别,再定 义聚类,选择回车键。这时输出的图看起来非常美观,横轴 上是性别,然后是 选择的三种品牌的均 值,此外 还包括各种学历的分布。堆积面积图。堆积面积图也称为堆占图,在商 业上的应用也很多。比如,点 击进入后,定义为购买渠道,然后将性别和学 历选入,点 击“确定” 。这种图形比较美观,而且可以解 释很多信息,所以在市场分析汇报中经常使用。3.T 检
9、验T 检验是指用独立样本可以快速检测两个变量之间 是否有关联,是一种 问卷统计分析的常用手段。T 检验示例一操作过程。在检验性别和是否喝啤酒的偏好之间是否关联时,可以选择比较均值中的“ 独立样本 T 检验” ,将是否喝啤酒放入检验变量,把性别放入分组变量,然后为性别定义,男 1、女2,然后 选择“ 继续” ,再点 击“ 确定 ”。结果解读。在分组求均值中(详见图 4),已 经得知男性的均值为 1.25、女性 为 1.5,因此可以直接看两种假设情况:一是假设男女之间喝啤酒的方差相等;二是假设方差不相等,可以看到男性是 0.452,女性是 0.522,二者的方差不相等。 这时选择假设方差不相等的一
10、行数据,发现检验 P 值( sig)是 0.223,如 图 7 所示。图 7 独立样本检验由于这一数值大于 0.05,所以可以得出结论:性别和是否喝啤酒的关系不显著。T 检验示例二操作过程。在这项独立样本 T 检验中,主要是考察学历和品牌选择之间的关系。一般来说,独立样本 T 检验只能检验两组 ,而示例中的学 历则 分为三组,在这种情况下可以采用两两分组的方法,但更高级的模型是 设定一个“割点”,将其分为两组。比如,当学 历分为 6 组的情况下,可以将割点定义为学历 4 本科, 这样就能将所有受访者分为本科以上(含本科)和本科以下两个组别。在本例中,将割点定为 2,大于等于 2 为一 组,小于
11、 2 为一组,然后选择继续。结果解读。在结果中可以发现二者的方差不相等,因此选择假设方差不相等的一行数据,发现检验 P 值 小于 0.05,说明不同学历的人在品牌选择上不相同,二者之间的关系显著。4.列联表(交叉表)在市场调查中,交叉表(Crosstable,又称列 联表),有着十分重要的地位,应用非常广泛。交叉表是以列表方式表示两个(或多个)变量或属性共同出现的频率。它有两个主要作用:一是描述两个变量同时出现的相关状况,二是看两个变量是否相关。列联表示例一在销售报表中,包含消费量、价格、包装方式、品牌等多列内容,在这里做列联表是分析品牌和包装方式之间的关系。在某些情况下,要先加权 个案,再做
12、列 联表分析。比如,某公司的可乐产品用小纸杯散装的销售量是 98,换言之就是可乐和小纸杯散装之间共同出现的次数是98,这时 其权重就是 98。在这里权重是起一个“秤” 的作用。操作过程。在做列联表分析时,第一步是在 “数据” 中,找到加权个案,将各 项权重选进去,点击“确定” 。然后再进入“ 分析 ”“描述统计”“交叉表”,开始交叉表分析,比如将品牌放到“行”中,把包装方式放到“ 列” 中,在 “统计量”中做一个卡方分析,再在单元格中全选行、列、总计的百分比,然后做一个复式条形图并点击“确定”。结果解读。在输出的交叉表上,“行” 上列出的是品牌,“ 列”上则是各种包装方式,下面共有4 行内容,
13、可以看出在各种包装方式中,卖得最好的是塑料瓶装 产品,占比 为 60.3%,其中雪碧所占的比例是 29.5%、可 乐占比为 23.6%、芬达为 17.7%、醒目为 29.1%。图 8 列联表示例一条形图如图 8 所示,在各个品牌中,最流行的包装方式都是塑料瓶装,而四大品牌包装方式的分布又各不相同。从商业角度来说,包装方式 对销售有很大影响,比如国内客 户首选塑料瓶装,因为这种包装方便携带,可以分多次喝完,其次是易拉罐装,对于纸杯散装则不大习惯。在列联表分析中,零假设是行列之间无关, SPSS 将自动给出检验的相伴概率,如果相伴概率小于显著性水平 0.05,则 拒绝零假设, 认为行列变 量彼此相
14、关。经过分析,得出的结论如图 9 所示。图 9 列联表示例一结果解读列联表示例二在本例中考察的是性别和学历之间的关系,仍然采用列联表分析操作:进入 SPSS 的“分析”“描述统计 ”“交叉表”,然后将性 别输入“行”,将学 历输入“列”, 统计量中选择卡方,选中单元格,显 示复式条形图,这样就能输出交叉表。如 图 10 所示。图 10 列联表示例二条形图由下图可知,男性和女性在交叉表中的分布没有差别,也就是性别和学历之间不相关。图 11 列联表分析示例二结果解读5.单因素、多因素方差分析方差分析就是考察不同变量的变异对于总变异的贡献大小,从而确定控制变量对研究对象影响力的大小。根据控制变 量的
15、数量,可以分 为单因素方差分析和多因素方差分析。单因素方差分析ANOVA 单因素分析包含以下关键点,如图 12 所示。图 12ANOVA 单因素方差分析单因素方差分析示例一。本例分析的是性别对是否喝啤酒的影响,具体操作过程:将是否喝啤酒放在因变量,将性别放在自 变量,在 对比中选择 多项式, 选择两两比较(LSD ),在选项中选择描述性和方差同质性检验。方差齐性检测。作为重要的分析手段,方差分析在 组与组进行比较分析时,不要求均 值相等,但要尽可能做到方差相等,这在统计中称为方差 齐性。 选好后就可以进行单因素方差分析,首先要看的是方差齐性检验,它的基本假设是两个方差是相等的,通过结果可以看出
16、,其 显著性为 0.69,大于 0.05,所以该假设可以接受,方差相等成立。如图 13 所示。图 13ANOVA 是否喝啤酒性别“方差齐性检验”组间平方和描述。进行“组间平方和描述”分析,得出结果为性别对是否喝啤酒影响不显著,如图 14 所示。图 14ANOVA 是否喝啤酒性别“组间平方和描述”单因素方差分析示例二。示例二分析的是不同学历对啤酒品牌选择的影响,通过单因素方差分析结果可以发现,学历对 啤酒品牌选择的影响显著。如图 15、图 16、图 17 所示。图 15ANOVA 啤酒品牌学历“方差齐性检验”图 16 啤酒品牌学历“多重比较”图 17ANOVA 啤酒品牌学历“组间平方和描述”多因
17、素方差分析如果研究对象的影响变量不止一个,可以做多因素方差分析,这样可以同时考察多个变量以及变量之间的交叉作用是否对研究对象的变异有影响。操作过程。多因素方差分析位于“一般线性模型”,选择“单变量” 模块。在示例中要分析的是学历和年龄分段及其交叉作用对品牌选择的影响,这是典型的市场调查分析方式。其中,年龄分段采用的是“ 割点” 的分割方式,也就是通过连续变量的离散化,对各个年龄段进行重新编码。然后将啤酒品牌设为因变量,将学历和年龄设定为自变量,其中学历分段是 3 组,年 龄分段是4 组。在该模型中,要选择组与组之间的两两比较,因 为在做品牌选择时,需要 进行客户细分分析。然后在选项中选择方差
18、齐性检测、描述 统计,点 击“确定”输出结果。结果解读。在年龄分段中,“1” 代表 20 岁以下, “2”为 2030 岁,“ 3”为 3040 岁,“ 4”为 40岁以上,学历的分布则分为 大专以下、大 专及本科、硕士以上三组。在方差齐性检验中,可以看到检验 P 值( sig)为 0.044,在此可以粗略地认为方差相等。如图 18 所示。图 18 误差方差等同性的 Levene 检验在图 19 中展示的是主体间效应的检验,其中学历、年龄分段以及学历、年 龄分段的 sig 值都小于 0.05,表示不同学历 、不同年 龄及其交叉效果的品牌选择是不同的,而在影响程度上依次为年龄、学历与年龄的交叉效
19、果和学历。图 19 主体间效应的检验在两两比较中,各个学历分组以及各个年龄分段进行了比较,其中 sig 值小于 0.05 的,均值差值的右上角就会有一个“*” 符号,表示差异显著,因此可以得到以下商业结果:在各个学历分组的比较中,大专以下组 与硕士及以上组的品牌选择不同,大专及本科组与硕士以上组的品牌选择不同,而大专以下组 与大专及本科组的品牌选择则无差异。如图 20 所示。图 20 多个比较学历在各个年龄分段的两两比较中,(1, 2)、(1,3)、(1,4)、(2,3)之间啤酒品牌选择不同,其他的年龄段之间无差异。如 图 21 所示。图 21 多个比较年龄二、多选题和排序题的分析与处理在录入
20、多选题时,每个选项各占一列。比如,某多选题 包含 A、B、C、D 四个选项,客户选择 A 就会显示“ 1”,不选就是“0” 。因此,在录入多选题 和排序题时,SPSS 或 Excel 的列宽会明显宽于单选题,因为每道单选题只有一列,而多 选题 和排序题则包含多列。多选题和排序题的分类,如图 22 所示。图 22 多选题和排序题分类1.不定项多选题的处理方式例如,为子女选择学校时的考虑因素, 备选项包括口碑、风格、升学率和交通四个方面, 该题目是一道不定项选择和排序题。编码处理在处理不定项多选题时,通常采用“0-1”编码进行处理,即为每个选项单独设立一个变量,本例可设定 a1m1、a1m2、a1
21、m3、a1m4 四个变量,分别代表口碑、风格、升学率、交通四个 备选项。定义数据集在 SPSS 的“分析 ”模块中,找到多重响 应,里面有一个“定义变量级” ,通过这一操作就能够将不定项多选的四个备选项重新编码,用二分法将其定义成二元值,选择该项定义为“ 1”,不选默认为“0”。然后将这道多选题定义一个新的变量级,重命名为“学校选择” 并添加进去,这时系统会在多重响应前添加“ $”符号,然后关闭该项。频率分析随后开始进行分析,进入 SPSS 的“分析” “多重响应”,里面提供了 频率分析和交叉表分析两种方法。首先进行频率分析,将多重响应集选进去,然后确定即可。在输出的结果中可以看到,最右侧的个
22、案百分比表示总共选择的次数,得出的商业结论是:父母在帮孩子选择学校时,第一位考虑的因素是口碑,占比 67.5%;第二位考虑的因素是升学率,占比 65%;之后是领导风格和交通因素。这一结论与 现实情况比较吻合。交叉表分析交叉表分析,进入“分析”“多重响应” “交叉表”,将父母与孩子的关系选入行中,将多重响应集放入列中,然后选择 “确定”,这时就有行、列、 总计三行数据,交叉表就完成了。该交叉表显示的结果与频率分析的结果相同,家长优先考虑的因素依次为占比 67.5%的口碑,占比 65%的升学率以及领导风格和交通因素。同时,在各个因素中,父 亲与母亲的关注程度和比例也清楚地显示了出来,比如可以看到在
23、升学率的因素中,母 亲比父亲更加关注。2.不定项排序题的处理方式例如,某小学生在学校共学习 5 门课程,分 别是语文、数学、英语、自然和社会科学。 现在请家长按照对各门课程的重视程度进行排序,同时要求 5 门课程都要参加排序。反向计分在不定项排序题的处理中,首先要做 recode(反向计分,optional)。一般来说,在做调研表时,排在第一位的是最受重视的,为了在记分时更符合人们的日常习惯,也就是统计出来的分值越大越重要,会做一个数据转换:进入“重新编码为不同的 变量”,将排序题的选项全部选进去,然后选择“旧值 与新值” 重新 编码。在 现实的重新编码操作中,一是要让最重要的选项的数值最大并
24、逐渐减小,二是在编码时 不能太过机械,要根据具体的业务赋予各个选项相应的权重。比如,根据各门课程的重要程度,将第一项转化为“7”,第二项转化为“5” ,第三项转化为“3” ,第四项转化为“1”,最后一项转化为“0” 。要点提示不定项排序题的处理方式:反向计分;转置;计分排序。需要注意的是,在重新编码并点击“继续”后,要为每个选项定义一个新名字,比如将各门课程选项依次改为“ 语文新 ”、“数学新” 、“英语新”、 “自然新” 和“社会科学新”等,然后点击“ 确定”,这时就会生成相应的五列新数据。转置转置的操作,先要新建一个 SPSS 文件,然后将前面生成的数据复制到新文件中,接着在“数据”中选择
25、扭转 90 度的 转置。之所以进行这一操作,是为了按照列计分时更加方便。计分排序最后,要进行计分。打开 SPSS 的计算器, 选择排序计分,也就是求和操作( SUM),然后将连续变量加到最后一项,点 击“确定”,这样排序的计分就会列出。这时再进行降序排列,就能 够得出调查结果:5 门课按照其重要程度,从高到低的排序是语文、数学、英 语、自然和社会科学。3.定项多选题的处理方式在市场调查排序题和多选题处理中,有时分析起来会非常复杂,难度很大。比如,在各个因素的排序中,每个因素下面又有很多细分的因素, 这样就构成一个矩阵表, 这样的情况分析起来会非常复杂。在进行定项多选题的处理时,有几个定项选项,
26、就定义几个变量,然后填入用 户选择的序号,例如备选答案是 6 个,定项选项是 3 个,就定 义 3 个变量。后续处理方式跟不定项相同,只不过在定义数据集时选择类别(categories),而不是二分变量。在进行操作时,先定义多重响应,然后定 义变量级,再将多选题的选项全部选进去,然后在定义数据集中选择类别,比如将变量的编码设定为 1 到 6,之后的频率分析、交叉表分析与不定项选择题相同。4.定项排序题的处理方式在处理定项排序题时,有几个选项,就定 义几个变量,然后填入用户选择的序号,这与不定项多选题很相似。比如,答案有 6 个选项,定向排序要求选 3 项,在转置时,没有选择的选项其权重为 0,然后求和并排序即可完成操作。表 1 四种题型的比较表题型 SPSS 存储变量 存储方法不定项多选题 6 选就 1,不 选就 0不定项排序题 6填写排序的序数,受 访者认为排第 3 就填 3定向多选题 3 填写备选 答案的序号,受访者选了 1、2、5,就填写 1、2、3定项排序题 6 受 访 者 选了就填排序号,没选就 填 0注:定项题以 6 个备选答案,3 个选项为例。