1、第七章,数据的处理和分析,本章学习目标,了解数据处理和分析的基本原理 掌握数据处理和分析的基本方法 能运用数据处理和分析的基本原理 和基本方法解决实际问题,本章学习重点和难点,重点 数据处理和分析的基本原理 数据处理和分析的基本方法 难点 数据处理和分析原理和方法在实际中的应用,本章学习的内容,第一节 数据处理和分析的基本 原理 第二节 数据处理和分析的基本方法 第三节 数据处理和分析的基本工具,本章教学方法,课堂讲授 案例教学 应用教学,1、历史:关于所研究问题的历史演变过程、来龙去脉 2、理论与方法:关于所研究问题所固有的理 论与方法 3、数据处理和分析的理论与方法:关于所研究问题所涉及到
2、的数据的处理、分析,用数据说话,用模型总结规律,反过来以更好地 支持所研究问题的理论和方法,一个较为优秀的研究人员应具有的知识结构,第一节 数据处理和分析的基本原理,一、数据处理和分析的基本功能 二、数据处理和分析的基本内容,一、数据处理和分析的 基本功能,四种功能: 1、概括概括是将原始数据转变成一些有意义的计算结果的过程 2、概念化是用准确的概念对所调研或计算的各种数据加以定义,3、解释用数据解释现象和解释理论、总结规律 4、推论通过样本的数据模型或特征来推论总体的情况,二、数据处理和分析的 基本内容,在数据处理和分析中,应用什么数据处理和分析方法是由其研究内容决定的。不同的研究内容有不同
3、的分析方法。,从统计学的角度分析, 主要有以下 八 方面的内容:,1、特征分析:即所研究的对象具有怎样的特征? 2、结构分析:即所研究的对象具有怎样的结构? 3、动态分析:即所研究的对象在时间上的变化是怎样的?,4、比较分析:即所研究的对象与某一特定对象相比,具有的优势是怎样的?又有哪些差距?存在的问题是什么?,5、因素分析:即影响研究对象的因素有哪些?其中,主要因素是什么?影响的方式是怎样的?,6、规律分析:即研究对象的运动形式是怎样的?所表现出的规律是什么?,7、趋势分析:即研究对象的未来表现如何?将会出现怎样的发展趋势? 8、可靠性分析:即在研究中所总结出的某些规律、对研究对象的未来的预
4、见等,其可靠性究竟怎样?是否与人们的判断相一致?等等,三、调查数据处理的程序,问卷接收,编辑和检查,编码,数据录入,缺失值处理,数据分析,(一)问卷的接收,为了保证问卷的质量,对于不同地区、不同调查员交来的问卷,应当认真仔细地做好接收、登记与核对工作。 首先,要对问卷进行登记与编号;其次,要将无效问卷的进行剔除;最后,还要确定补充调查。,一般事先需要专门设计登记表格,具体内容有:,一,二,三,四,调查地区及编号,调查员姓名及编号;,调查实施的时间,问卷交付的日期;,问卷编号;,实发问卷数、上交问卷数、未答或拒答问卷数、丢失问卷数等。,(二)编辑和检查,为了增加准确性,对那些初步接收的问卷还要进
5、一步进行检查和校订。主要检查是否清楚可认,是否完全,是否一致以及是否明确不含糊等。,调查问卷的审核,对于检查出来的不满意问卷,常用以下方法进行处理: 1.退回去重新填写; 2.按缺失数据处理; 3.丢弃。,(三)编 码,编码是指用代码来表示各组数据资料使使其成为可进行计算机处理和分析的信息。编码可以按照预先编码或事后编码来进行。无论是哪种编码方式基本程序都包括以下几个方面: 确定变量,单选问题与多选问题的编码 无结构式(开放式)问题的编 码 编码说明书及数据输出格式说明书,(四)数据录入,数据录入要求做到准确无误。控制录入误差的方法有:重复录入、预值控制、平衡检测。 数据录入的主要方式:直接录
6、入转录,编码、录入,挑选工作认真、有责任心、技术熟练的录入员;,加强对录入员的监督管理;,定期检查录入员的工作质量和工作效率;,对录入的资料进厅抽样复查,一,二,三,四,五,二次录入,(五)缺失数据处理,缺失数据是指由于被调查者没有给出明确的答案或调查员没有记录下他们的答案而造成未知变量值。,缺失数据处理可以使用以下几种方法: 1.用一个样本统计量去代替; 2.用某些统计模型进行推算; 3.问卷整体剔除; 4.部份排除。,(六)调查资料的分析,1.数据分析任务书数据分析任务书一般应明确列举以下内容: 编制变量标识和变量制标识。,需要制作的统计表。 需要制作的统计图。 需要进行的统计分析。,2.
7、选择适当的数据处理软件 3.数据分析的基本方法 频数分布。编制频数分布首先要对原始数据进行统计分组。在分组的基础上,把所有数据或总体单位按组归并、排列、形成所有数据或总体各单位在各组间的分布,称为频数分布。,集中趋势的度量。集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或中心值。统计平均数就是用来反映总体的一般水平和集中趋势的指标。,离散趋势的度量。离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势,又称标志变动度。离中趋势指标,是用来综合反映数据的离中程度的一类指标。常用的离中趋势指标有极差、分位差、平均差、方差、标准差、离散
8、系数等。,变量间关系的分析。市场现象之间的关系主要是相关关系。分析相关关系主要有相关表、相关图、相关系数等三种方法。,第二节 数据分析和处理的基本方法,一、由其研究内容决定,统计学的分析方法主要有 6 种: 1、描述分析法 2、比较分析法 3、动态分析法,4、因素分析法 5、模型分析法 6、预测分析法,1、描述分析法,主要是运用相关的总量指标、相对指标、平均指标、标志变异指标等进行总结性的说明和分析,以说明某种状况。 所以,从功能上来说,描述分析法主要有三大功能:,第一、叙述功能。即用数据叙述某种事实。 第二、论据功能。即用数据论证你的某种论点。 第三、支持功能。即用数据支持你的某种论点。 问
9、题:总量指标、相对指标、平均指标、标志变异指标是什么?它们各包括哪些具体指标?,2、比较分析法,主要是运用相关的总量指标、相对指标、平均指标来说明和反映研究对象与某一特定的研究对象相比,研究对象所具有的优势、两者之间所存在的差距和不足。,在各种条件相同的情形下,用总量指标进行比较,以说明总量上的差距; 用相对指标和平均指标进行比较,以说 明两者之间相对的差异; 但如果某些条件并不相同,就不能运用总量指标进行比较说明,而只能运用相对指标和平均指标来进行比较 说明。因为,总量指标不具有可比性。,3、动态分析法,有两类: 一类是简单总体的动态分析;一类是复杂总体的动态分析。,简单总体,是指某一单一总
10、体或在数量上可以直接相加的总体。 单一总体:只有一个变量的总体 如甲产品的产量、价格 在数量上可以直接相加的总体:如甲企业的产值和乙企业的产值 复杂总体:在数量上不能直接相加的总体 如:不同产品由于计量单位不同,其产量是不能直接相加的,简单总体的动态分析方法是: 速度分析法 主要运用发展速度和增长速度来分析和说明。 复杂总体的动态分析方法是: 指数分析法 主要运用综合指数、平均指数和平均指标指数来分析和说明。,4、因素分析法,也有两类: 一类是指数体系分析法 一类是组成要素分析法,指数体系分析法,是运用指数体系进行因素分析的方法 又分为两因素分析法和多因素分析法 主要从相对数和绝对数两方面进行
11、分析,(1).两因素分析法,销售额=销售量单位产品价格,销售额 指 数,=,销售量 指 数,单位产品价格 指 数,其指数体系为:,(2).多因素分析法,原材料费用总额=总产量单位产品原材料消耗量单位原材料价格,单位原材料 价格指数,原材料费用 总额指数,=,总产量 指数,单位产品原材料 消耗量指数,组成要素分析法,其主要特征是各组成要素之关系表现为“和”的关系。 主要做贡献率内容的分析 基本模型为: 设:A=A1+A2+A3 则:A1的贡献率为:A1/A100%A2的贡献率为:A2/A100%A3的贡献率为:A3/A100%,5、模型分析法,主要是根据变量之间的关系构建回归模型。通过模型说明研
12、究对象的运动方式、运行规律和主要的特征,也可以进行因素分析。 最重要的是两种分析方法: 相关分析法 回归分析法,6、预测分析法,一方面可以运用所构建的回归模型进行趋势的预测分析另一方面,可以通过特有的统计预测方法进行趋势的预测分析,如指数平滑法等,二、应用于营销调查的统计分析类型,描述分析 Descriptive Analysis,推断分析 Inferential Analysis,差别分析 Differences Analysis,联合分析 Associative Analysis,预测分析 Predictive Analysis,五种统计分析概述,解读营销调查中的描述统计指标,中位数在营销
13、调查中的作用 众数在营销调查中的作用 均值在营销调查中的作用 频率分布在营销调查中的作用 标准差在营销调查中的作用,中位数在营销调查中的的作用,中位数可以确定样本在某一变量的分布上的位置特征。 四分位数、八分位数和十六分位数,甚至百分位数是可以将分布特征刻画得更细致。,例如:,八分位数,四分位数,中位数,十六分位数,十六分位数,用人单位对市场营销专业人员关于组织能力的重要程度的看法,众数在营销调查中的作用,众数可以直观地表达样本在某变量的集中趋势,均值在营销调查中的作用,均值可直接反映样本在某变量下的集中趋势,薪酬在1200-1280之间,频率分布在营销调查中的作用,频率能够显示样本在某变量下
14、的分布状况,标准差在营销调查中的作用,标准差能够反映均值的代表性及样本在某变量下的分布,在EXCLE状态与进行描述分析,分析步骤 第一步:点击“工具栏” 第二步:点击“数据分析” 第三步:在菜单中选择描述分析并选择计算指标项 第四步:将计算结果存盘 注意事项 一般不要把结果直接粘到WORD 上,经过整理后,再沾到WORD 上,第三节 数据处理和分析的 基本工具,1、工具之一:统计表 2、工具之二:统计图,统计表表格代替文字描述,便于统计结果的精确、简洁的表达和对比分析 统计图用图形代替数据,获得直观、形象的效果,一、 统计表,1. 统计表的结构 2. 统计表的种类3. 不良统计表的修改举例,1
15、. 统计表的结构,统计表由以下几个部分组成: 标题、标目、线条、数字、备注,1.标题 位于表的上方, 概括地说明表的主要内容。 必要时注明时间和地点。 若一篇论文中有两张以上统计表, 则每张统计表的标题前应加序号。,2.标目 根据其位置与作用可分为横标目、纵标目和总标目。 横标目位于表的左侧,说明各横行数字的涵义,一般为研究的事情; 纵标目位于表的右侧,说明各纵栏数字的涵义,即研究事物的指标。 只有组合表才有总标目,它是对横标目或纵标目内容的概括。,3.线条 通常采用三条半线。即顶线、底线,纵标目下的横隔线及合计上的半线。若是组合表,在总标目与纵标目之间有短横线隔开,4.数字 一律采用阿拉伯数
16、字。要求完整、准确无误。 同一指标位数一致,位次对齐。 统计表中不能留有空白项目,数字为零时用“0”填于表中,数据不详时用“”表示。,5.备注 不是表中必备项目。若是表内某个数字或标目需作说明时,可用“*”号标出,写在底线的下面。,统计表的结构,备注:,表号 标题(包括何时、何地、何事),顶线,底线,分隔线,2. 统计表的种类,根据分组标目的复杂程度,统计表可大致分为简单表和复合表。简单表:只按一个特征或标志分组。,表2-8 有效率,复合表:按两个或两个以上特征或标志结合起来分组。,表2-9 某厂 2004、2006异常检出率,:TTT(麝香草酚浊度试验), :GPT(谷丙转氨酶)。(丁建生等
17、. 中国卫生统计 2006; 16(3):166 ),3. 不良统计表的修改举例,二、 统计图,统计图是用点、线、面等几何图形,直观形象地表达、描述数据或结果。 1. 统计图的结构 2. 统计图的种类与绘制注意事项,1. 统计图的结构,统计图由以下几个部分组成: 标题、标目、点线条面、刻度、图例,1、标题 其作用及要求与统计表的标题相同,但位置是在图的下方。若同一篇论文中有两个以上统计图时,则标题前应有序号。,2、标目 分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般有度量衡单位。 按中文排版习惯,纵标目由上而下,横标目由左向右。 如果横轴的分组标志十分明确,也可省略横标目。,3、点
18、线条面,4、刻度 指在纵轴或横轴上的坐标。 按从小到大的顺序,纵轴刻度数值由下向上排列,横轴刻度数值从左到右排列。常用的刻度有算术尺度和对数尺度两种。为了图形美观,图形的长宽比例习惯上为7:5或5:7。,5、图例 其目的是为了使读者能区分统计图中各种图形的意义。图例通常在横标目与标题之间,如果图中有较多空间(如线图),也可放在图中。,2. 统计图的种类与绘制注意事项,条图 圆图 百分条图 线图 直方图 散点图 统计地图 箱图 茎叶图 雷达图 气泡图,(1)条图,条图:用直条的长度表示相互独立的统计指标的大小,可分为:单式条图:具有一个统计指标,一个分组标志。复式条图:具有一个统计指标,两个分组
19、因素。分段条图误差条图,图2-17 2000年三大城市四苗接种率(),分段条图:具有两个统计指标,一个分组因素,且两个统计指标必须有隶属关系。如左图。 误差条图:用条图或线图表示均数的基础上,在图中附上标准差的范围。如右图。,图2-27 四种营养素喂养小白鼠三周后所增体重(克),图2-26 老、中、青三代的结核菌素阳性率与强阳性率(),绘制条图注意事项, 纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。 (3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。,(2)圆图
20、,圆图:用于表达事物内部的百分构成比大小。 各个扇形面积(3.6)的大小反映了各组成部分百分比(1)的大小。 从12点钟处开始绘制,顺时针方向排列。,2002年某医院1402例孕妇分娩结果,(3)百分条图,百分条图的作用与圆图相同。但更适用于多组百分比的比较。,不同性别某癌三种类型的构成,(4)线图,普通线图:用线段的升降表示某事物动态变化,或某现象随另一现象变迁的情况(绝对差)。适用于连续性资料。纵轴:算术尺度;横轴:连续性变量(时间、年龄等) 半对数线图:表示事物发展速度(相对比)。纵轴:对数尺度; 横轴:连续性变量(时间、年龄等),表2-13 某市19491957年15岁以下儿童结核病和白喉死亡率(1/10万),(5)直方图,直方图:用矩形面积表示连续变量的频数(频率)分布。 1. 横轴:连续变量的组段;纵轴:频数或频率,尺度从0开始。 2. 各矩形条之间不留空隙。 3. 矩形的高度为频数或频率,宽度为组距。,(6)散点图,散点图:用点的密集程度和趋势表示两种现象间的相关关系。横轴:自变量X纵轴:应变量Y 纵轴与横轴的起点可根据资料的情况而定。,(7)统计地图,统计地图:用于表示某现象的数量在地域上的分布。,(8)箱图,箱图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。,