1、第二章 数据的初步整理 -统计图表的制作,习题复习,1. 三位研究者评价人们对四种速食面品牌的喜好程度。研究者甲让评定者先挑出最喜欢的品牌,然后挑出剩下三种品牌中最喜欢的,最后再挑出剩下两种品牌中比较喜欢的。研究者乙让评定者将四种品牌分别给予1-5的等级评定,(1表示非常不喜欢,5表示非常喜欢),研究者丙只是让评定者挑出自己最喜欢的品牌。研究者甲,乙,丙所使用的数据类型分别是: a)称名型-顺序型-计数型 b)顺序型-等距型-称名型 c)顺序型-等距型-顺序型 d)顺序型-等比型-计数型,2.当我们按性别差异,将男性指定用数字“1”来代表,女性指定用数字“2”来代表,这里所得到的数据是()A.
2、称名变量B.顺序变量C.等距变量D.比率变量,3.除了有量的大小、相等单位之外,还有绝对零点的随机变量为( )A.比率变量B.等距变量C.顺序变量D.称名变量,4.对学生的身高、体重所做测量得到的数据是( )A称名变量B顺序变量C等距变量D比率变量,5.日常生活使用的温度计所测出的气温量值是( )成绩测验分数百分制是( )五分制是( ) A称名变量B顺序变量C等距变量D比率变量,称名数据:起名称作用,不同的数字没有大小之分。比如身份证号、房间号、学号等。顺序数据:表示名次或等级,可以比较量的大小,无相等单位。等距数据:可以比较大小,有相等单位,无绝对零点,可加减。等比数据:有相等单位,有绝对零
3、点,可加减乘除。,6.反映总体数据特征的量数,称为( )A.统计量B.参数C.自由度D.显著性水平总体、样本、参数和统计量,7.根据随机变量的取值是否连续,可将其分为离散变量和 。8. 哪些是离散变量,哪些是连续变量A57人 B150斤 C25米 D前10名 E五分制 F百分制离散变量:所有取值的数目是有限的,相邻两个数值之间不能取中间值。连续变量:相邻两个数值之间的取值是无限的。,第二章 统计量表,第一节 次数分布表与图第二节 其他类型的统计图表,第一节 次数分布表与图,一、数据的初步整理,数据整理:是指将统计调查所得到的原始资料进行科学的分组和汇总,并用一定的方式将其显示出来,为统计分析推
4、断提供系统化、条理化的资料的过程。 统计表和统计图是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式,(一)整理的基本方式,1.数据排序(Sort) 按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列。,(一)整理的基本方式,2.统计分组(Grouping) 定义: 就是根据被研究对象的特征,将所得数据划分到各个组别中去。如人口按性别分为两组,学生按成绩分为五组。 分组原则:(1)完备性原则:总体中的任何一个个体都有组可归 。(2)互斥性原则 :每个个体只能划归其中的一个组中。概括地讲进行统计分组时,要使总体中的每个个体都有组可归,而且只能归入其中一个组。 即采取“不重不
5、漏”的原则。,不遗漏,不重复,删除数据的标准:遵循三个标准差原则,即该数据是否落在平均数加减三个标准差之外。,(一)整理的基本方式,分组类型:(1)性质类别:主要根据事物的属性不同将被观测的事物加以划分,反映事物在组别、种类上的不同,不说明事物之间的数量差异。(2)数量类别 :以数据的取值大小为分类标志,把数据按数值大小以分组,分组类型,单项式分组数列指每个组值只用一个具体的变量值表现的数列,适用于离散型变量且变量变动范围不大。比如按家庭人数进行分组。组距式分组数列指每个组的变量值用一个区间来表现的变量数列,连续型变量只能编制组距式分组,离散型变量若其变动范围较大,也可编制。,单项式分组适宜于
6、离散变量分组,且变量值取值个数不多的情形。,组距式分组适宜于连续变量分组,或取值个数较多的离散变量分组。,等距数列:变量值变动区间的长度相等异距数列:变量值变动区间的长度不完全相等,组距式数列,单项式分组,(二)数据的初步表现方式,1.统计表2.统计图,1.统计表(Tabulation),在对数据进行统计分类以后,得到的各种数量结果称为统计指标。把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表。统计表的结构:一个完整的统计表由四个部分组成:标题、标目、线条和数字。有时还有文字说明和备注。统计表的列表原则:重点突出,简单明了,主谓分明,层次清楚。,统计表列表的基本要求,标题 :简单
7、明了 标目:文字简明 线条:不宜有竖线和斜线。 数字:暂缺或未记录可用“”表示,无数字用“”表示。零值应填“0” 备注:用“*”标出,在表的下方加备注,心理学研究中常用简单的三线表。,是依据数字资料,应用点、线、画、面、体、色等描绘制成,简明而又有规律,并且能显示数量的图形,它是统计数据资料的可视化显示方式。,2.统计图(Graph),统计图的结构及制图要求,图号图题图目图尺:数据值大小悬殊时可用断尺法或回尺法减少图幅。图例图注,图2-1 某高校教育系各年级男女生人数资料来源:表2-6,二、次数分布表,次数分布(Frequency Distribution)指一些数据中各个不同数值所出现的次数
8、情况,或者是指一批数据在量尺上各等距区组内所出现的次数情况。如某车间工人按性别分组如下:分组后就必然会形成50个总体单位在各组间的分布,这就是次数分布。 次数:分布在各组的总体单位数。 频率:各组次数与总次数之比。 次数分布数列:将各组组别与次数 依次排列所形成的数列。 次数分布数列的要素: (1)组别 (2)次数或频率,二、次数分布表,1.简单次数分布表2.分组次数分布表3.相对次数分布表4.累加次数分布表5.双列次数分布表,1.简单次数分布表(Simple Frequency Table),就是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。,2.分组次数分布表(Grou
9、ped Frequency Table),当数据量很大时,应该把所有数据划分成若干分组区间,然后将数据按其数值大小划归到相应的组别内,分别统计各组别中包括的数据个数,再用列表形式呈现出来。,表2-7 100名学生数学分数的次数分布表,编制分组次数分布表的步骤,(1) 求全距 (2) 确定组数和组距 (3) 确定组限 (4) 登记次数(5) 计算次数,编制分组次数分布表的步骤,(1)求全距全距最大变量值最小变量值 (2) 确定组数和组距确定组数:对于等距式分组,在实际应用时,一般按斯特格斯(H.A.Sturges)提出的经验公式确定组数 K: K=1.87(N-1)2/5和确定各组的组距。一般情
10、况下组距取5或10的倍数,为组数,N为总体单位数,d为组距,R为全距,编制分组次数分布表的步骤,(3)列出分组区间(组限)组限:起点值和终点值之间的距离。起点值(最小值)称为下限,终点值(最大值)称为上限。一般取精确限划分数据的组别。组中值:各组上限与下限的中间值。,编制分组次数分布表的步骤,(4)登记次数和计算次数 汇总各组次数与频率,将各组组别与各组次数一一对应排列,就得到所需的分布数列 。,课堂练习1,列出分组区间时注意:,最高区间应包含最大值,最低区间应包含最小值。最高组或最低组的下限最好是组距的整数倍。各分组区间一般在纵坐标上按顺序排列,数值大的分组区间在上面,数值小的分组区间在下面
11、。通常只用整数下下限值,然后右侧划一横线。,作业1,某班50名学生拼写测验分数如下(从高到低依次排列): 59 56 52 50 47 46 44 43 43 42 42 40 39 38 38 37 37 37 36 36 36 35 35 34 34 33 32 32 32 32 31 31 31 30 30 29 29 28 27 27 27 25 24 22 22 21 21 20 17 17绘制分组、相对、累加次数分布表。,3.相对次数分布表,将次数分布表中各组的实际次数转化为相对次数,即用频数比率(f/N)或百分比( f/N *100%)来表示次数,就可制成相对次数分布表。主要用于
12、反映各组数据的比例结构。,4.累加次数分布表,为了通过次数分布表了解位于某个组限以上或以下的数据个数,比如:智力测验成绩为120及120以上的有多上人?或者90以下的有多少人?110以下的有多少人?累加次数:就是各个组限以上或以下的次数总和。根据累加次数编制的次数分布表就是累加次数分布表。,向上累计:从变量值小的组向变量值大的组累加。 向下累计:从变量值大的组向变量值小的组累加。实际累加次数:各组的实际累加次数。 相对累加次数:各组累加次数与总次数的比值或百分数。,可以判断某个数据在整个数据范围中的大概位置。比如上表中,智力得分为111的一个人大概位于第?名的位置。如果有1000人参加这个测验
13、,这个分数大概位于第?名左右,5.双列次数分布表,又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。,根据次数分布表,可以进一步绘制出次数分布图,更加形象直观的表述数据。 1.直方图 2.次数多边形图 3.累加次数分布图,三、次数分布图,1.直方图(Histogram),又名等距直方图,是以矩形的面积表示连续性随机变量分布的图形。,图1 初二100名学生数学测验分数的次数直方图,直方图的制作步骤:,(1)以细线条标出横轴和纵轴(5:3)。纵轴为次数量尺,横轴为测验分数量尺标出各组组中值。(2)每一直方条的宽度由组距i确定,高度由次数f决定。所有的直方条以各组的组中值为对称点,沿
14、着横轴,依顺序紧密直立排列。(3)在直方图横轴下边标上图的编号和图的题目,并检查一下图形结构的完整性。,2.次数多边形图,是一种表示连续性随机变量次数分布的线形图。,将简单次数换成相对次数,就可以画出相对次数多边图。优点是可以在一个图上比较多组次数分布。,3.累加次数分布图,(1)累加直方图 横坐标分组区间,纵坐标是累加次数。可以看出某上限以下的次数或者某下限以上的次数。(2)累加曲线图 先同上,标出各交点,再连接各交点。,累积次数曲线图的制作方法要领:,(1)纵轴为累积次数的量尺,横轴为分组区间的量尺;(2)对于”以下“分布来讲,各个坐标点的位置,其横坐标是各组的实上限,纵坐标是累积的次数。
15、(3)用连续光滑的曲线把点的轨迹连起来,再与横轴上最低组实下线所在点连起来,形成“S”型曲线。,次数分布曲线的形状,从理论上讲,当一批数据的个数足够大时,随着分组时组距的不断变小,绘制成的次数多边形图就越来越连续光滑,若分为无数组时,就形成一条极其光滑的曲线,这种曲线在统计学上称为次数分布曲线。,第二节 其他类型的统计图表,1.简单表2.分组表3.复合表4.条形图5.圆形图6.线形图7.散点图,1.简单表,只列出名称、地点时序或统计指标名称的统计表。未做任何划分。,我国近年来国内生产总值,2.分组表,只有一个分类标志的统计表,也称单向表。按一个标志分组 。,2005年国内生产总值分布表,3.复
16、合表,统计分组的标志有两个或两个以上的表。,4.条形图,用条形的长度来表式各事物间的大小与数量之间的差异。适用资料:离散型数据资料,即计数资料。,数据统计表,问题1:根据下列数据列出统计数表4,5,6,1,2,8,4,7,9,8,1,5,6,4,2,7,9,3,4,5,8,7,6,2,4,5,8,6,5,6,8,9,8,9,6,8,2 3 1 5 5 6 3 7 4,数字,制作条形统计图的步骤:1、根据图纸大小,画出两条互相垂直的射线。(注意:水平射线的下方和竖直射线左边须留有一定的空白,注明直条数量和统计的内容)2、在横轴上确定直条的位置。3、在纵轴上根据数量的多少确定单位长度。4、根据数量
17、的多少画出长短不同的直条。(注意:直条的宽窄要一致,长短要准确,条与条之间间隔要均等),作业,条形图和直方图有什么区别?,条形图与直方图的区别,(1)描述的数据不同。 称名数据;连续性数据。(2)表示数据多少的方式不同。长短或高低表示数据的多少和大小;用面积表示。(3)坐标轴上标尺分点意义不同。 分类轴;刻度值。(4)间隔 有间隔,但无意义;无任何间隙。,5.圆形图,显示各部分在整体中所占的比重大小,以及各部分之间的比较。,制作扇形统计图的步骤:,1、画一个圆。2、按各组成部分所占比例算出各个扇形的圆心角度数。3、根据算出的各圆心角的度数画出各个扇形,并标明相应的百分比,各比例的名称可以注明在
18、图上,也可以用图例标明。(注意:各扇形可以用不同颜色表示,也可以用斜线、网状等不同线形表示),6.线形图,6.线形图,用一定单位长度表示一定的数量,并根据数量的多少描出各点,然后把各点用线段顺次连接起来,形成折线,用折线的升降来表示数量之间的关系及变化趋势,这样的统计图叫作线形图。特点:线形图能够清晰的反映数据的变化趋势或情况。注意:线形图是把条形统计图各个长方形上边的中点用线段连接起来得到的,7.散点图,如果要研究两个变量间的关系,比如身高与体重的关系,智商与学业成绩的关系。用直角坐标系中的横轴和纵轴分别表示两个变量,将每一个被观察的个体在这两个变量上的观测值作为坐标画点即可。,茎叶图,对于
19、未分组的数据,可用茎叶图显示其分布特征,由“茎、叶”两部分构成,图形由数字组成,茎在左,叶在右,用小数点(直线)把茎叶隔开。,作业 2,作业 3,课堂练习2,1、 心理学实验中一个非常有名的实验是1959年Peterson设计的用于短时记忆的研究。在这个实验中,他们给被试展现一个没有意义的三个字母像“RUW”,展示一秒钟。然后这个词被撤走,并且这些被试被要求去做其他的任务几秒钟。过几秒钟后被试被要求回忆这个词。下面展示的是不同时间间隔回忆的正确率。画线形图。,作业4,一个报纸在星期天的报上登了这样一个头条“Violent crime in Normaltown Skyrockets !”根据这
20、篇报道,去年的暴力犯罪是566起,比前年增长了15.5%。记住斥责了政府工作的失力并且要求政府尽快采取有效措施。这有一些有趣的数据,是过去10年里Normaltown人口的数量和暴力犯罪的数量。,A、用这些数据画两个线形图。第一个图表现出暴力犯罪的飞涨。第二个图表现出在过去的十年里暴力犯罪的数量没有什么改变。B、第三个图表现出暴力犯罪与增长的人口数量有关。C、你对这篇报道的看法。,作业5,老鼠敲击杠杆得到食物。这个研究中把老鼠分为两组,一半的老鼠他们每次敲击杠杆都能得到食物,实验称为100%组。另一半老鼠平均敲击杠杆60%会得到食物,称之为60%组。一段时间以后,主试停止提供食物,然后计算老鼠敲打杠杆的次数10分钟。下面是这10分钟内老鼠敲击杠杆的数量。,A、画一个图比较两组老鼠的表现。B、哪一个组会持续较长时间停止敲击杠杆。,