1、某城市家庭外出就餐调查的有关数据,在某城市调查居民当月在外就餐的费用,向1000户家庭发放了调查问卷。询问当月该户在外就餐的费用为(1)100元以下;(2) 100元至300元(3)300元至500元;(4)500元1000元;(5)1000元以上。回收了768份问卷,统计结果如表所示,某城市居民当月在外就餐的费用,某城市家庭外出就餐调查的有关数据,不响应的有232户。研究响应的768户与不响应的232户的居住环境,两者相差悬殊,普通居民住宅与高档住宅的比例有明显差异。在响应的768户中,高档住宅户仅占1.6%,而不响应的232户中,高档住宅户占到38%。在调查的12户高档住宅户中有5户选择(
2、3),7户选择(4),根据这样的背景,完全可以判断实际回收的768户样本的结构与原设计的1000户的结构是有实质差异的。那么应当如何看待这些数据?上述情况是可能面对不响应数据问题的一种,也是本章所要研究和解决的问题。,第七章 市场调查资料分析,市场调查资料整理市场调查资料分析市场调查资料的使用,第一节 市场调查资料整理,一、资料的审核 (一)数据的审核 发现数据中的错误 (二)数据的筛选 找出符合条件的数据,数据的审核(原始数据), 1.原始数据审核的内容完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 准确性审核 检查数据是否真实反映客观实际情况,内容是否符合实
3、际 检查数据是否有错误,计算是否正确等,数据的审核(原始数据),审核数据准确性的方法逻辑检查 从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核计算检查 检查调查表中的各项数据在计算结果和计算方法上有无错误 主要用于对定距和定比数据的审核,数据的审核(第二手数据),适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定这些数据是否符合自己分析研究的需要时效性审核 应尽可能使用最新的统计数据确认是否必要做进一步的加工整理,数据的筛选,数据筛选的内容包括: 将不符合要求数据或有明显错误的数据剔除 将符合某种特定条件的数据
4、筛选出来 对检查出来不满意资料,用以下方法处理:(1)退回去重新填写;(2)按缺失数据处理;(3)丢弃。,二、资料的整理,(一)统计分组的概念、作用及原则 1.概念 把同质总体中的具有不同特点的单位分开, 从而正确地认识事物的本质及其规律性。 2.作用(1)可以找出总体内部各个部分之间的差异 (2)可以深入了解现象总体的内部结构(3)可以显示社会现象之间的依存关系3.分组的基本原则“互斥穷尽”,揭露社会经济现象的类型,反映各类型的特点。,单位:亿元,说明社会经济现象的内部结构。,研究经济现象之间的依存关系。,某乡某种农作物的耕作深度与收获率的关系,(二)分组标志的选择,根据研究问题的目的来选择
5、,要选择最能反映被研究现象本质特征的标志,要结合现象所处的具体历史条件或经济条件来选择,(三) 分组标志的种类,1.按分组标志的特征不同分为 :品质标志分组:反映事物属性差异,数量标志分组:反映事物数量差异单项式数量分组: 运用于离散变量组距式分组:运用于连续变量 2.按总体所选择标志的个数分 :简单分组:按一个标志对总体分组复合分组:按两个或两个以上标志对同一 总体进行分组,三、编 码,编码是指用代码来表示各组数据资料使使其成为可进行计算机处理和分析的信息。编码可以按照预先编码或事后编码来进行。,公司年终考核表,公司年终考核表编码表,四、制表(图)分析,即用统计表、图来表示次数分布 频数分布
6、表 直方图 折线图 饼形图,第二节 市场调查资料分析使用,一、市场调查资料分析方法 (一)定性分析方法,定性分析是凭借分析者的经验和直觉、凭分析对象过去和现在的状况以及各种最新的信息,对分析客体的性质、特点和变化发展规律作出判断。,(二)定量分析方法定量分析是从事物的数量特征入手,运用统计或数学方法进行数量分析,挖掘出事物本身特性及规律性的分析方法。描述统计分析与推论统计分析单变量统计分析与双变量统计分析,定性分析与定量分析方法特点比较,二、市场调查资料使用,(一)列表分析技术1.单向频次表按照某一标志分组以后,用以反映总体各单位分配情况的统计数列,称分配数列(次数分配或次数分布)。,组别(变
7、量) 次数(频数) 频率(比率),某班学生的性别构成情况,组别 次数 频率,练习:某市居民对A品牌空调满意度测试,很满意人数300,满意人数500,较满意人数600,不满意人数400,很不满意人数200。要求计算总的满意率、不满意率,绘制频数、频率分布统计表。,2.交叉列表分析将两个或两个以上的变量,按照一定顺序对应排列在一张表格中,以描述分析变量之间的相关关系的统计分析技术。 交叉表的优点:1.将复杂的数据简单化,较为直观,易于理解。2.方法简便易行。3.为数据的深度分析(相关分析等)提供基础。,某啤酒消费原数据(双变量),某啤酒消费原表频率(双变量),某啤酒消费列频率表(双变量),某啤酒消
8、费行频率表(双变量),按产品上市年限计算的销售增长速度,【分析】 上市小于2年的产品中的53.6%和上市25年的产品中的60.9%其销售增长较快,而上市5年以上的产品中只有32.9%其销售增长较快。这说明产品上市时间与销售增长之间具有一定的相关关系,即产品上市时间超过一定的年限,销售增长有可能下降,这符合产品生命周期理论,健身消费与年龄的关系(%)(双变量),健身消费与年龄、性别的关系(%)(三变量),三变量交叉列表分析技术,涵义:三变量交叉列表分析是同时将三个具有有限类目数和确定值的变量,按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的技术,三变量交叉列表分析,更精
9、确反映原有二变量之间的关系。 揭示原有相关关系为虚假相关。 显示原先被隐含的联系。 不改变原有的相关关系。,婚姻状况与时装购买状况的关系,分析 上表显示,女性中60%的未婚者属于高时装购买者,而已婚女性中的比例只有25%;就男性而言,40%的未婚者和35%的已婚者属于高时装购买者,两者的比例比较接近, 更精确显示原有联系,【案例】 假设某项小轿车购买意向的市场调查,最初以被调查者受教育程度和小轿车购买意向两个变量进行分析,用双变量交叉列表分析得到的结果见下表,分析 上表显示,大学程度的被调查者中32%有购买小轿车的意向,而低于大学程度的被调查者中只有21%有购买小轿车的意向。这一分析结果似乎说
10、明受教育程度的高低是影响小轿车购买意向的一个重要因素,分析 表中显示,收入水平是影响高级住宅购买意向的因素,而教育程度并非影响因素。这说明,原先通过二变量交叉列表分析得出的结论是虚假的, 显示原有联系是虚假的,【案例】 出境旅游需求的调查,分析 从表可知,原先隐含的年龄与出国旅游愿望之间的关系得到了明确的反映。在男性中,小于45岁者中有更多的人有出国旅游的愿望,而女性则正好相反,大于45岁者中有更多的人愿出国旅游, 显示出原先被隐含的联系,【案例】 研究家庭规模和吃快餐关系调查,家庭规模、收入与经常外出吃快餐的关系, 不改变原先反映出的联系,练习,已知下列问题1.家庭电视是 (1)黑白 (2)
11、彩电2.观看新闻类电视节目时间(1)不足0.5小时 (2)0.5-1小时 (3)1小时以上3.观看文艺类电视节目时间(1)不足0.5小时 (2)0.5-1小时 (3)1小时以上4.观看电视剧类电视节目时间(1)不足0.5小时 (2)0.5-1小时 (3)1小时以上请将上述问题的调查项目用列联法重新按表格形式设计,(二)图形分析技术,线形图 饼形图 环形图 柱形图,线形图,某城市家庭对住房状况评价的累积频数分布,饼形图,环形图,柱形图,直方图,频 数 (人),15,12,9,6,3,日加工零件数(个),某车间工人日加工零件数的直方图,我一眼就看出来了,大多数人的日加工零件数在120125之间!,
12、(三)描述性统计分析,1.集中趋势的度量集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或中心值。定类数据:众数定序数据:中位数定距和定比数据:均值众数、中位数和均值的比较,众数,(1)集中趋势的测度值之一 (2)出现次数最多的变量值 (3)不受极端值的影响 (4)可能没有众数或有几个众数 (5)主要用于定类数据,也可用于定序数据和数值型数据,众数的不唯一性,无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,根据表中的数据,计算众数,解:这里的变量
13、为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo商品广告,根据表中的数据,计算众数,解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo不满意,某种商品的价格情况,众数M0=3.00(元),中位数,(1)集中趋势的测度值之一 (2)排序后处于中间位置上的值,(3)不受极端值的影响 (4)主要用于定序数据,也可用数值型数据,但不能用于定类数据,数值型未分组数据的中位数,n为奇数
14、,居于中间位置的那个标志值就是中位数。 原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,中位数 22,数值型未分组数据的中位数,n为偶数,则中间位置两个标志值算术平均数为中位数 原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6,平 均 数,(1)集中趋势的测度值之一 (2)最常用的测度值 (3)易受极端值的影响 (4)用于数值型数据,不能用于定类数据和定序数据,简单平均数,原始数据: 10 5 9 13 6 8,加权平均数,【例】根据表中的数据,计算50 名工人日加工零
15、件数的均值,课堂练习,2001年某市下岗居民年收入增加情况如表:请分别计算每户居民年收入增加的众数、中位数及平均值,2.离中趋势的测度,概念:离中程度是指总体中各单位标志值差别大小的程度,又称离散程度或标志变动度。种类:全 距 R平 均 差 A.D.标 准 差 S.D.()离散系数 V,甲、乙两学生某次考试成绩列表,甲、乙两学生的平均成绩为80分,集中趋势一样,但是他们偏离平均数的程度却不一样。乙组数据的离散程度大,数据分布越分散,平均数的代表性就越差;甲组数据的离散程度小,数据分布越集中,平均数的代表性越大。,全 距 R,(1)一组数据的最大值与最小值之差 (2)离散程度的最简单测度值 (3
16、)易受极端值影响,R = max(Xi) - min(Xi),(4)计算公式为,标 准 差 ,概念:标准差是离差平方平均数的平方根,故又称“均方差”。计算公式为:,离散系数 V,概念:离散系数,是各种变异指标与平均数的比率。反映总体各单位标志值的相对离散程度,最常用的是标准差系数。,思考与练习题,1.根据下列资料编制原表频率、列频率表、行频率表并作出分析说明旅游消费与收入水平的关系(人数),思考与练习题,下列是20名学生在某门课程中的成绩数据:81,39,97,84,57,72,79,65,84,77,97,46,70,93,84,75,81,84,72,87。,计算这些分数的均值、中位数、众数、 全距、标准差及标准差系数,