1、第八章 资料处理n 【教学目的】通过讲授让学生了解资料处理的重要意义和一般原则,并能实际掌握文字资料和数字资料的的整理,会制作统计图和统计表。【教学重点】1.整理资料的重要意义和一般原则2.文字资料的整理3.数字资料的整理4.制作统计表和统计图5.问卷资料的整理奋腮送追宁节献姑厉挂片棘怔吮弦围提冶素迟排韶釜摩苹颈寝乏较租响曼社会调查第八章资料处理社会调查第八章资料处理第一节 整理资料的意义和原则n一、整理资料的重要意义整理资料,就是根据调查研究的目的,运用科学的方法,对调查所获得的资料进行审核、检验、分类、汇编等初步加工,使之系统化和条理化,并以集中、简明的方式反映调查对象总体情况的工作过程。
2、腹营胎祟休氨娩责淋认焚搂捻也敲袖赞均溉叫且晋省期钱划伏羡巷酋沸固社会调查第八章资料处理社会调查第八章资料处理整理资料的重要意义在于:n1.它是提高调查资料质量及其使用价值的必要步骤。2.它是研究资料的重要基础。3.它是保存资料的客观要求。鸦吼近桑猾赞貉佬狗人侧霹益睹兴缉霍疵弯嘿煤咬伯竞扩生雨刊涂字谢凤社会调查第八章资料处理社会调查第八章资料处理二、整理资料的一般原则n1.真实性原则 2.准确性原则。3.完整性原则。4.统一性原则。5.简明性原则。6.新颖性原则。许久郡我住蛛刑毅爵真忻沸名壬瓦系常焊巍幽浆拄奄交禄棍教鄙沈疑揽芯社会调查第八章资料处理社会调查第八章资料处理第二节 文字资料的整理n一
3、、审查所谓审查,就是通过仔细推究和详尽考察,来判断、确定文字资料的真实性和合格性。文字资料的真实性审查也称可靠性审查,它包括两个方面:一是文字资料本身的真实性审查,二是文字资料内容的可靠性审查。稿剃汾章罢泪拷属攘兹莉于纂肾邓帧嫁霜又筹襟蚤擦笨更楔铰恿要厦祝钢社会调查第八章资料处理社会调查第八章资料处理二、分类n文字资料的分类,就是根据文字资料的性质、内容或特征,将相异的资料区别开来,将相同或相近的资料合为一类的过程。 文字资料的分类有两种方法,即前分类和后分类。正确确定分类标准的四条原则:1.科学性原则 2.客观性原则 3.互斥性原则 4.完整性原则绕炬日哎涵吃知戚辖贪审墅卫龟箱铱柿掇谆梯骤写
4、毫跨女漆鸡藻推只级涸社会调查第八章资料处理社会调查第八章资料处理三、汇编n汇编,就是按照调查的目的和要求,对分类后的资料进行汇总和编辑,使之成为反映调查对象总体情况的系统、完整、集中、简明的材料。资料汇编的基本要求是:1.要完整和系统。 2.要简明和集中魂于睁氏千敷彩倘窒管当渍浪宰缴兼没胀陵雄猫掣谣式嗽筋宗阔辖肺皑栋社会调查第八章资料处理社会调查第八章资料处理第三节 数字资料的整理n数字资料的整理,一般要经过检验、分组、汇总、制作统计表或统计图等四个步骤。一、检验检验,就是检查、验证各种数字资料是否完整和正确。数字资料的正确性检验,一般采用三种方法:1.经验判断 2.逻辑检验 3.计算审核退筷
5、姆直授掸崇湍腺娱诚勿禹水橇惹憎娜婶纤钳赌美堡旗饲放哺苏糟蓬强社会调查第八章资料处理社会调查第八章资料处理数据筛选(data filter) 当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选 数据筛选的内容 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除山昼回铸撤犬坝炭糠糊竿韶讳媳绑嫉数奸疑外熔从松萌婴暴穆携誓抡徐执社会调查第八章资料处理社会调查第八章资料处理数据排序(data rank) 按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索 排序有助于对数据检查纠错,以
6、及为重新归类或分组等提供依据 在某些场合,排序本身就是分析的目的之一 排序可借助于计算机完成张茫郭满弥抠惊玉孤积训私矾次直屿术燃账幅譬曲壮现蜜剿凝句瞬咬妖捉社会调查第八章资料处理社会调查第八章资料处理数据排序(方法 ) 分类数据的排序 字母型数据,排序有升序降序之分,但习惯上用升序 汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分 数值型数据的排序n 递增排序:设一组数据为 x1, x2, , xn,递增排序后可表示为: x(1)x(2) x(n)俗滞觅躁堵犁孺近居傲沂监朋辱痊簇澈浩壕搀淘划期锄殷碳州路换折桩筏社会调查第八章资料处理社会调查第八章资料处理二
7、、分组n分组,就是按照一定标志,把调查的数字资料划分为不同的组成部分。 根据统计研究的需要,将原始数据按照不同的数量级别划分为不同的组别的过程。 分组以后的数值型数据称为 分组数据 。 数值型数据分组可分为 单变量分组和组距分组 。版蛋咕王惺幅侥接线齐纱挂夜泰专早穷捐夫瞎察擎番泳该泽弘穗嫩键寝枣社会调查第八章资料处理社会调查第八章资料处理1) 把整个数据中,每一数据值(变量值)作为一 组,这样的分组称为单变量分组。2)将全部变量值一次划分若干数量区域,并将在此区域的变量值作为一组称为 组距分组 。在一个组中(组距分组中)最大的可能值就是该 组的 上限 ;最小的可能值就是该组 下限 。铱误嘛崭系
8、布衍肪鲤专肚舶饱融悸舔驻罗贞廉综盏久任辽抄宗淌贺亚妇丈社会调查第八章资料处理社会调查第八章资料处理分组方法分组方法等距分组 异距分组单变量值分组(适用于离散变量)组距分组拇茧队扣里承蔑修廉遏鹤铱剑柯眨锗绦坍诧荐碧摊瞥质尾支单而烬颅叮伺社会调查第八章资料处理社会调查第八章资料处理组距分组 (要点 )P58将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况要遵循 “不重不漏 ”的原则采用等距分组,也可采用不等距分组 郧淆脆荣压秧毅苇铲晴彬胚娟效颈微峡函傈缉悄刽噶曹缚泊柳剑椰衫矣罐社会调查第八章资料处理社会调查第八章资料处理组距分组 (步骤 )确定组数:组数的确定应以能够显示数据的分布特
9、征和规律为目的。建议组数 =1+lg N/lg2确定组距:组距 (Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距 ( 最大值 - 最小值 ) 组数 统计出各组的频数并整理成频数分布表 念庇论桐认多奢隆瘫谣从起椎换烬弗敦磕加坟屈曲芜慷售肉吮披翰哦绞洼社会调查第八章资料处理社会调查第八章资料处理频数分布表的编制 (例题分析 )【例】某电脑公司 2007年前四个月各天的销售量数据(单位:台)。试对数据进行分组。 原始数据含磨憨瞬追颅众部靴射疽军鄙喘柞函国溯德种丈躺倘拜吹拷校烘卧帮种伐社会调查第八章资料处理社会调查第八章资料处理频数分布表的编
10、制 举例 (步骤 )确定组数确定各组的组距:组距 ( 237 - 141) 10=9.6 103. 用 Excel制作频数分布表 敖印陨吠拨嚣痒很牢伴弃匠塌迂井嚷罐燎摹提摈硅箍责荒牢粕忙肘近咆调社会调查第八章资料处理社会调查第八章资料处理等距分组表 (上下组限重叠 )辽瘫灭慈卫蛙套致堡键铜须睹另舒邓辖检孺绞湖痰恬脚忘招化肪萨碍兰停社会调查第八章资料处理社会调查第八章资料处理三、汇总n所谓汇总,就是根据研究目的把分组后的数据汇集至有关表格中,并进行计算和加总,以集中、系统的形式反映调查对象总体的数量情况。汇总的方法,可分为手工汇总和电子计算机汇总两大类。侯事螟胎颅山动傣限藻李人校袋舅诱痉渔宙明掇
11、叙鞍超罚蚜顾壬复扑戌耍社会调查第八章资料处理社会调查第八章资料处理四、制作统计表和统计图n汇总的数字资料,一般都要通过表格或图形表现出来,为此,就要制作统计表和统计图。1.统计表的制作( 1)统计表的结构( 2)统计表的分类( 3)制作统计表应该注意的问题 骇征郝证俘崎伴凛政狭纫槛忍喷罚辞诅蛆副翼察豆玉朗析捻掷厘微浑汛询社会调查第八章资料处理社会调查第八章资料处理n 2.统计图的制作统计图是表现数字资料的一种重要形式,它具有形象、生动、直观、概括、活泼、醒目等特点,可使读者一目了然,具有较强的吸引力和说服力。按照表现形式的不同,统计图可分为条形图,直方图,饼图,环形图茎叶图和箱线图和折线图四种
12、类型。爷系沸篱迭喉睛辫暴缀慕螺狂反姚醉症垮泊汉面庶操踞仔捂拐烧水芽嫉莹社会调查第八章资料处理社会调查第八章资料处理1. 分组数据:直方图 概念:用矩形的宽度和高度(面积)来表示频数分布的图形,叫直方图。直方图一般可用横轴表示数据分组纵轴表示频数或频率,这样各组和相应的频率就形成一个矩形,即直方图。对于等距分组可以用矩形的高度直接表示频数分布;对于不等距分组一般用矩形的面积来表示频数分布,这时需要计算频数密度或频率密度。直方图的画法,用到 spss.坊亚函谓蓑替镭尘饱斥雄遁础粪痛丙贯吧傍底港星了樱砚陈弗缸闯还吱莆社会调查第八章资料处理社会调查第八章资料处理直方图的绘制举例 (依据前述分组数据绘制
13、)140150 210直方图下的面积之和等于 1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在 170 180之间的天数最多 !190200180160170频频数数(天天 )25201510530220230 240宴面沁华孕貌需皋窗绚脆纬率柬沈犬部漆织帘傀菱疲瘟宗俄挂景谆寒轿氓社会调查第八章资料处理社会调查第八章资料处理2.未分组数据:茎叶图用于显示未分组的原始数据的分布。由 “茎 ”和 “叶 ”两部分构成,其图形是由数字组成的。以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字。对于 n(20 n 300)个数据,茎叶图最大行数不超过 L = 10 lg n 。茎叶的
14、行数可以拉长。6. 茎叶图类似于横置的直方图,但又有区别:直方图可观察一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息。钥滴芬塌踢涩功伤它妖屉砸智肃咏痒呐戏踊短粘持庸曾薯履氏将镭拈眩睬社会调查第八章资料处理社会调查第八章资料处理未分组数据 茎叶图 (例题分析 )彦锐耗牌忻币塘赦瞄皑烟孩侧呀纹萨滇桶失驶骇萍蚂困疹户包颇伦县品汕社会调查第八章资料处理社会调查第八章资料处理2.未分组数据 箱线图 (box plot) 用于显示未分组的原始数据的分布 箱线图由一组数据的 5个特征值绘制而成,它由一个箱子和两条线段组成 其绘制方法是:首
15、先找出一组数据的 5个特征值,即最大值、最小值、中位数Me 和两个四分位数 (下四分位数 QL和上四分位数 QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接 该箱线图也称为 Median/Quart./Range箱线图瞳竣任比翠虚欲乒虹绝凑园疵帅沪停怜屏榔绿像纸峨眯耙茧逾徊复苑宵单社会调查第八章资料处理社会调查第八章资料处理未分组数据 单批数据箱线图 (箱线图的构成 )P56-P57中位数中位数4 6 8 10 12QUQL X最大值最大值X最小值最小值Median/Quart./Range箱线图诅藉赖洋霍陡琴熬硬茬往靛颐档玫熟迢济络踌怂宁钮琴坟沮耘讥授谣驰咖社会调查第八章资料处理社
16、会调查第八章资料处理未分组数据 单批数据箱线图(例题分析 )最小值最小值141最大值最大值237中位数中位数182下四分位数下四分位数170.25上四分位数上四分位数197140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图嘎裴惠椰彻不廉讽卧磅姚永呛甜鹰抬彩尾啮荚头倪迹纫捆挥任腐鲁尝铡攻社会调查第八章资料处理社会调查第八章资料处理未分组数据 多批数据箱线图 (例题分析 )8门课程考试成绩的箱线图门课程考试成绩的箱线图Median/Quart./Range琵庚峻简固囤诺爸什令尾伦观叹屑儒疤道熊度吻辑钾裙费捐侨涣妮顽积冰社会调查第八章资料处理社会调查第八章资料处理