分享
分享赚钱 收藏 举报 版权申诉 / 82

类型数据的搜集与整理.ppt

  • 上传人:无敌
  • 文档编号:954772
  • 上传时间:2018-05-05
  • 格式:PPT
  • 页数:82
  • 大小:801.50KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据的搜集与整理.ppt
    资源描述:

    1、第2章 数据的搜集与整理,学习目标:2.1 数据的计量与类型2.2 统计数据的搜集2.3 统计数据的整理,学习重点,数据的计量尺度数据的类型变量的概念及种类统计数据的表现形式统计数据的直接来源统计数据整理的步骤和方法次数分布的图示和类型,2.1 数据的计量与类型,2.1.1 数据的计量尺度2.1.2 数据的类型2.1.3 变量及变量值2.1.4 统计数据的表现形式,2.1.1 数据的计量尺度,定类尺度 :也称“列名尺度”定序尺度:也称“顺序尺度”定距尺度:也称“间隔尺度”定比尺度:也称“比率尺度”,定类尺度,是最粗略、计量层次最低的计量尺度,是按照某种属性对事物进行的平行分类或分组。如:按性别

    2、将全班学生分为男生和女生分类的原则是类别“穷尽”和“互斥”。分类得到的数据表现为“类别”,且不能进行加减乘除运算。是对事物最基本的测度,是其他尺度的基础,定序尺度,是对事物之间等级差或顺序差的一种测度。它不仅可区分“类别”,还可确定类别间的“优劣”或“顺序”。如:将考试成绩分为优、良、中、及格和不及格等。计量得到的数据也表现为“类别”,但只能比较大小,不能进行加减乘除运算。,定距尺度,它不仅能对事物进行“分类”并“排序”,而且可测度类别之间的“间距”。如:一个地区的温度200C与另一个地区的温度250C相差5摄氏度。它没有固定的“零点”。计量的结果表现为“数值”,但只能进行加减运算,不能进行乘

    3、除运算。,定比尺度,是指在对事物进行“分类”、“排序”和计算“间距”的同时,还可计算类别之间“比值”的一种层次最高的计量尺度。如:一个人的月收入1800元是另一个人月收入600元的3倍。它有固定的“零点”。计量的结果也表现为“数值”,可以进行加减乘除运算,2.1.2 数据的类型,定性数据(品质数据):说明事物品质特征,不能用“数值”表示,通常表现为“类别”,是定类尺度和定序尺度计量得到的结果。定量数据(数量数据):说明事物数量特征,能用“数值”表示,是定距尺度和定比尺度计量得到的结果。,2.1.3 变量及变量值,变量:是指说明现象某种特征的概念。变量值:是指变量的具体表现。统计数据是统计变量的

    4、具体表现。,变量的类型,举例,2.1.4 统计数据的表现形式,绝对数:是统计数据的基本表现形式,反映现象的总体规模和水平。有时期数和时点数两种形式,计量单位有实物单位、价值单位和复合单位三种。如:一个地区的总人口、国内生产总值等。相对数:是两个绝对数的比值,反映现象总体的相对规模和相对水平,有比例和比率两种形式,计量单位有“有名数”(如人/平方公里)和“无名数”(如:%)之分。如:一个地区的经济增长率、人口自然增长率等。,2.2 统计数据的搜集,2.2.1 统计数据直接来源的渠道2.2.2 统计调查方式2.2.3 数据的搜集方法2.2.4 调查方案设计2.2.5 统计数据的间接来源,2.2.1

    5、 统计数据直接来源的渠道,专门组织的调查:是取得重要社会经济数据的重要渠道,包括统计部门的统计调查和其他部门或机构的调查。科学实验:是取得自然科学数据的主要渠道。主要介绍取得社会经济数据的主要方式和方法,2.2.2 统计调查方式的种类,普 查,普查:是为某一特定目的而专门组织的对调查总体各个单位一一进行的一次性全面调查。普查的特点:通常是一次性或周期性的;一般需规定统一的标准调查时间;数据一般比较准且规范化程度较高;适用对象较窄,只能调查一些最基本、最一般的现象。,抽样调查,抽样调查:这里指的是“概率抽样”,它是从调查总体中随机抽取部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征

    6、的一种非全面调查方法。抽样调查是实际中应用最为广泛的一种调查方法。抽样调查的特点:经济性、时效性高、适应面广、准确性高。,统计报表,是我国目前搜集统计数据的一种重要方式。它是按照国家有关规定,自上而下地统一布置、自下而上逐级提供基本统计数据的一种非全面调查方法。它可以进行不同的分类。,重点调查,重点调查:是从调查对象总体的全部总体单位中选择少数“重点单位”进行的调查。重点单位:是指在所调查的数量特征上占有较大比重的单位。例如:要了解全国钢铁企业的生产情况,可以选择如鞍钢、宝钢、首钢等少数大型钢铁企业作为重点单位进行调查,以便对钢铁产量有一个大致的了解。,典型调查,典型调查:是从调查对象总体中选

    7、择一个或少数几个有代表性的单位进行全面深入的调查,目的是为了描述或揭示现象的本质和规律。它主要属于一种定性调查研究方法,着眼点不在数量特征上。,2.2.3 数据的搜集方法,访问调查邮寄调查电话调查座谈会个别深度访问,访问调查,又称“派员调查”,是调查者与被调查者面对面地交谈而得到所需资料的一种调查方法。分为两种:标准式访问调查:事先设计标准式问卷,调查是依次提问。非标准式访问调查:事先不设计问卷,调查是自由交谈。,邮寄调查,通过邮寄或其他媒体将问卷或调查表送至被调查者,由被调查者填好后寄回或放在指定收集点的一种调查方法。是一种标准化调查。调查者与被调查者之间没有直接的语言交流,信息的传递完全依

    8、赖于调查表。基本程序:设计问卷或表格 小范围预调查 发放问卷或表格 收回问卷或表格 处理和分析。,电话调查,是调查者利用电话通过语言交流获取信息的一种调查方法。具有时效快、费用低等特点。可以按预先设计好的问卷进行调查,也可针对某一专题进行电话采访。应注意:调查的问题要简明、数量不宜太多。,座谈会,又称“集体访谈法”,即:将一组被调查这集中在调查现场,让其就所要调查主题发表意见,从而获取信息的一种调查方法。适用于搜集与调查主题有关的少数人员的倾向和意见,且调查得到的往往是一些定性资料。优点是可以相互启发、集思广益;缺点是易受权威影响。,个别深度访问,是一次只有一名受访者参加的特殊的定性研究。是一

    9、种无结构的个人访问,通过发挥调查者的追问技巧,可探知被调查者深层次的想法和感受。适用于个人隐私及敏感性问题的研究。所得到的通常也是一些定性资料。,1.2.4 调查方案设计,调查目的调查对象和调查单位调查项目和调查表调查方式和调查方法调查时间调查的组织实施工作,调查目的,应明确本次调查的目的、任务和意义。它是调查所要达到的具体目标,所回答的是“为什么调查”。写作应简明扼要。,例:我国第四次人口普查的目的为准确地查清第三次全国人口普查以来我国人口在数量、地区分布、构成和素质方面的变化,为科学地制定国民经济和社会发展战略与规划,统一安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。,调

    10、查对象和调查单位,所要解决的是“向谁调查”,由谁来提供所需数据的问题。调查对象:是由调查目的决定的调查研究的总体或范围。调查单位:是构成调查对象中的每一个单位,是调查项目和指标的承担者,也是数据搜集和分析的基本单位。实际中,调查单位可以是总体的全部单位,也可以是总体中的部分单位。,调查项目和调查表,所要解决的是“调查什么”的问题。调查项目:是调查单位的调查的具体内容,它可以是调查单位的数量特征,也可以是调查单位的某种属性或品质特征。调查表:就是将调查项目按照合理的顺序排列而成的表格,可以是一览表,也可以是单一表,一般由表头、表体和表外附加三部分组成。市场调查中,调查项目和调查表通常表现为一张调

    11、查问卷。,调查方式和调查方法,所要解决的是“怎样调查”的问题。应明确是全面调查还是非全面调查。若是非全面调查,应明确是抽样调查、重点调查还是典型调查。若是抽样调查应明确抽样框、具体的抽样方法、数据的推断方法等。市场调查中,还应明确是采用访问调查、邮寄调查、电话调查还是其他方式。,调查时间,调查数据所属时间:应明确规定所调查的是哪个时期或时点上的数据。调查的工作期限:是指调查工作从开始到结束的时间长度,包括调查的时间、数据处理的时间、数据分析和完成调查报告的时间等。,调查的组织实施工作,调查人员的选择、组织和培训。调查表格、问卷、调查人员手册的印刷,必要调查工具的准备等调查经费来源和经费预算等。

    12、,2.2.5 统计数据的间接来源,通过其他途径获取别人调查或科学试验的第二手数据。第二手数据主要是公开出版或报道的数据。也可通过其他渠道使用一些尚未公开的统计数据及广泛分布于各种媒体的各种数据。第二手数据使用起来方便经济,但应注意时效性和适用性,使用时应注明来源。,2.3 统计数据的整理,2.3.1 统计数据整理的步骤2.3.2 统计分组的方法2.3.3 次数分配的图示和类型,2.3.1 统计数据整理的步骤,数据的预处理:审核 筛选 排序。统计分组编制频数分布表绘制频数(次数)分布图,数据的审核,数据的筛选,数据的排序,按一定的顺序将数据进行排列。数据排序便于浏览数据、发现数据特征趋势,有助于

    13、数据检查纠错,为重新归类分组提供依据。数字型数据排序有“递增”或“递减”两种。文字型数据排序可用笔画多少等多种方法排序。,统计分组的概念,就是根据统计研究的需要,按照某种特征或标志将全部数据分成不同的组别。对全部数据而言,它是“分”。对单个数据而言,它是“合”。分组的结果体现“组间的差异性、组内的同质性”。分组时所依据的特征或标准称为分组标志。,分组标志的种类,频数和频率,频数:又称为“次数”,即分布在各组的数据个数。频率:又称为“比重”,即各组频数与总频数的比值。各组的频率之和=1或100%,频数分布和频数分布表,频数分布:又称为“次数分布”,即全部数据按其分组标志在各组内的分布状况。频数分

    14、布表:是指按某种标志对数据进行分组后,再计算出所有类别或数据在各组中的频数和频率而形成的统计表格。数据分组的过程,就是频数分布及频数分布表的形成过程。,按品质标志分组,按品质标志分组的同时计算出各组的频数和频率,就形成“频数分布表”。适用于对定类尺度和定序尺度计量得到的品质数据的分组。,1998年我国大陆人口按性别分组表,资料来源:,中国统计年鉴1999,中国统计出版社,1999年,第111页,按数量标志分组,可先将数据进行排序,然后根据需要进行“单变量分组”或“组距分组”。适用于对定距尺度和定比尺度计量得到的数量数据的分组。,单变量分组,单变量值分组:一个变量值就是一组。步骤:数据排序;分组

    15、。适用条件:离散型变量、数据重复次数多且数据个数少的分组场合。,例:某班50名同学,在统计学期中考试成绩如下:65 95 85 75 65 85 95 85 95 85 75 95 65 85 65 75 65 85 65 85 75 75 85 65 75 65 85 65 75 85 65 85 75 75 85 85 85 75 75 7585 75 85 75 85 85 75 85 85 95,将数据“由小到大”排序如下:65 65 65 65 65 65 65 65 65 6575 75 75 75 75 75 75 75 75 7575 75 75 75 75 85 85 85

    16、85 8585 85 85 85 85 85 85 85 85 8585 85 85 85 85 95 95 95 95 95分组得到“频数分布表”见后。,某班50名学生统计学期中考试成绩分组表,组距分组的概念,组距分组:将全部数据依次划分为若干区间,并将一个区间内的数据作为一组。适用于连续型变量或数据较多且重复出现次数少的场合。在组距分组中,一个组的最小值称为“下限”;一个组的最大值称为“上限”。,组距分组的步骤,将原始数据进行排序确定组数确定各组的组距根据分组整理成“频数分布表”下面举例说明。,例:某行业管理局所属40个企业1999年的产品销售收入数据排序如下(单位:万元)87 88 92

    17、 95 97 100 103 103104 105 105 107 108 108 110 112 113 114 115 115 116 117 117 118 119 119 120 123 124 125 126 127 129 135 136 137 138 142 146 152,确定组数,分组的目的之一是为了观察数据的特征和规律。组数的多少应适中。组数的确定,应以能够显示数据的分布特征和规律为目的。,确定各组组距,组距:是一个组的上限与下限之差。=(全部数据的最大值-全部数据的最小值)组数通常,组距宜取5或10的倍数,且第一组的下限应小于最小变量值,最后一组的上限要大于最大的变量值

    18、。,某行业管理局所属40个企业1999年的产品销售收入分组表,组距分组应注意的问题,一定要遵循“不重不漏”的原则。解决“不重”的问题,习惯上规定“上组限不在内”。当一组数据悬殊较大时,为避免出现空白组或极个别极端值被遗漏,一般应采用“以下”及“以上”。可以采用等距分组,也可以采用不等距分组。对于不等距分组可用“频数密度”反映频数分布的实际状况。组距分组掩盖了各组内的数据分布状况。“组中值”是上限和下限中间之间的中间数值,它是代表各组数据一般水平的数值。组中值=(下限+上限)2,附:开口组组中值的计算,开口组的组距和组中值的确定,一般一相邻组的组距为准,其计算公式为:缺下限开口组(以下)的组中值

    19、 =上限-(相邻组组距2)缺上限开口组(以上)的组中值=下限+(相邻组组距2),向上累计和向下累计,为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频数之和,这就需要在分组的基础上计算出“累计频数”。向上累计:即“由小到大累计”,亦即:从变量值小的一方向变量值大的一方累加频数。向下累计:即“由大到小累计”,亦即:从变量值大的一方向变量值小的一方累加频数。,某班50名学生统计学考试成绩分组,2.3.3 次数分布的图示和类型,次数分布的图示:直方图、折线土、茎叶图。次数分布的类型:正态分布、偏态分布、J型分布、U型分布。,直方图,直方图:用矩形的宽度和高度来表示频数分布的图形。在平面直

    20、角坐标系中,通常用“横轴”表示“数据分组”,用“纵轴”表示“频数”或“频率”。频数的分布,可以用直矩形的高度,也可用频数密度表示。但用频数密度表示更为合适。频数密度=频数组距,折线图,又称为“频数多边形图”,它是在“直方图”的基础上,把直方图的顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉而形成的图形。特别注意:折线图的两个终点必须与横轴相交;折线图与横轴围成的面积应等于原来直方图各个矩形的面积之和。,茎叶图,由“树茎”和“树叶”两部分组成。设计好“茎”是绘制茎叶图的关键。通常将一个数据拆分为两部分,数据的“高位数”作“茎”,“个位数”作为“叶”。如:108拆分为:10为“茎”,8为

    21、“叶”。茎叶图既能给出数据的分布状况,又能看出每一个原始数据。适用于未分组的原始数据。,例:某车间30名工人的年龄如下:18 18 21 23 28 29 46 50 45 4423 25 24 25 24 27 36 37 34 3330 39 43 47 48 51 52 42 41 19 根据这些资料编制茎叶图,见下页。,正态分布,正态分布:是一种对称的钟型分布。它成“两头小,中间大”的形状。有许多现象均服从正态分布。如农作物的单位面积产量、学生的考试成绩、零件的公差、纤维的强度等均服从正态分布。,正偏(右偏)分布,正偏分布:是相对于“正态分布”而言的,表现为一组数据中多数数据偏低,少数

    22、数据偏高,有极大值出现。此时,全部数据的均值会高于中位数。,负偏(左偏)分布,负偏分布:也是相对于“正态分布”而言的,表现为一组数据中,多数数据偏高,少数数据偏低,有极小值出现。此时,全部数据的均值会低于中位数,正J型分布,正J分布:即全部数据由小到大成曲线形上升趋势。西方经济学中的供给曲线,随着价格的提高以更快的速度增加,呈现为正J型。,反J型分布,反J分布:即全部数据由大到小呈曲线下降趋势。西方经济学中的需求曲线,随着价格的上升,需求量以较快的速度减少。,U型分布,U型分布:其特征是:两端的频数分布多,中间的频数分布少。例如:人和动物的死亡率分布就近似服从U型分布。产品的故障率也有类似的分布。,End of Chapter 2,休息片刻!,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据的搜集与整理.ppt
    链接地址:https://www.docduoduo.com/p-954772.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开