1、试验资料的整理,特征数的计算,与,第二章,XYZ 华中师范大学生命科学学院,一、总体与样本 二、参数与统计数 三、变量与资料 四、因素与水平 五、处理与重复 六、效应与互作 七、误差与错误 八、准确性与精确性,回顾: 第一章 绪论,在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料(data)。,原始数据,无序,有序,统计分析,资料整理,揭示事物本质,第一节:试验资料的搜集与整理,一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,对试验资料进行分类是统计归纳的基础。,数量性状资料,质量性状资料,计数资料 (非连续变量资料),计量资料 (连续变量资料),变量,定量变量
2、,定性变量,连续变量,非连续变量,资料,对资料进行分类整理是,必须坚持“同质”的原则。,数量性状(quantitative character)是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料 (data of quantitative character)。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。,一、数量性状资料,指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为非连续变量资料或间断变量资
3、料或离散变量资料。,例如,鱼的尾数只可能是1,2,3,4,n,1、计数资料(enumeration data),指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定, 它们之间的变异是连续性的,因此计量资料也称为连续变量资料。,例如,小麦的株高是8095cm,可以是86.5cm或86.54cm。,2、计量资料(measurement data),质量性状(qualitative charac
4、ter)是指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料(data of qualitative character),也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种: 1.统计次数法;2.评分法,二、质量性状资料,1、统计次数法(frequency counting),这种由质量性状数量化得来的资料又叫次数资料。,在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。,对某
5、一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。 例如,小麦感染锈病的严重程度可划分为0级(免疫)、1级(高度抵抗)、2级(中度抵抗)、3级(感染)。,2、评分法(point system),两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数资料。,第一节:试验资料的搜集与整理,一、试验资料的类型,二、试验资料的搜集,三
6、、试验资料的整理,样本资料的搜集(collection)是统计分析的第一步,也是全部统计工作的基础。没有数据,就没有发言权。,二、试验资料的搜集,调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。 资料的调查又可以分为两种:普查和抽样调查。 1、普查(census)是对研究对象的每一个个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。 消耗大量的人力、物力和时间,一、调查(survey),人口普查,在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调
7、查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记。人口普查工作包括对人口普查资料的搜集、数据汇总、资料评价、分析研究、编辑出版等全部过程,它是当今世界各国广泛采用的搜集人口资料的一种最基本的科学方法,是提供全国基本人口数据的主要来源。从1949年至今,中国分别在1953年、1964年、1982年、1990年、2000年与2010年进行过六 次全国性人口普查。,抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况极少,多数情况下还是进行抽样调查。,
8、2、抽样调查(sampling survey),“你不必吃完整一头牛,才知道它的肉是咬不动的。”Samel Johnson,抽样的方法有多种,主要有:随机抽样法、顺序抽样法和典型抽样法,一般情况下在统计学中常常采用随机抽样的方法。,要使样本无偏差地估计总体,除了样本容量要足够大之外,重要的是采用科学的抽样方法,抽取有代表性的样本,取得完整而准确的数据资料。,背景 法兰克罗斯福总统争取连任、肯萨斯州州长兰登为共和党总统候选人 美国经济正由大萧条中逐渐恢复九百万人失业,于1929年至1933年间实际所得降低三分之一 宣称一: 文学文摘认为兰登将以57%对43%赢此选战。此数字基于二百四十万人之民意
9、调查结果。 宣称二:盖洛普民意测验所采用分层抽样调查了3000人,预测罗斯福将当选为美国的新一任总统。,选举结果罗斯福以62%对38%赢此选战。为什么?,抽样的广泛应用缘于大选前的民意测验,文学文摘的取样办法 :通过登记的电话簿发放问卷 在当时仅有一千一百万个部宅用电话,而全国人口超过1.2亿。,可能问题的所在 取样偏差:Digest杂志的取样中包含过多的富人,而该年贫富间选举倾向相距极大,怎样才能预测准?-样本要有代表性。,)随机抽样(random sampling),又被称为概率抽样(probability sampling),必须满足2个条件:一是总体中每个个体被抽中的机会是均等的;二是
10、总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。,(1)简单随机抽样,纯随机抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。,N,方法:将总体内所有抽样单位全部编号,采用随机方法确定被抽单位编号,这些编号所对应的抽样单位抽出来放在一起就构成一个随机样本。 适用对象:个体间差异较小、所需抽取的样本单位较少的情况。,例2.1,(2)分层随机抽样(stratified random sampling),分层随机抽样是一种混合抽样。其特点是将总体按变异原因或程度划分成若干区层,然后再用简单随机抽样方法,从各区层按一定的抽样分数抽选抽样单
11、位。,抽样分数(sampling fraction):一个样本所包括抽样单位数与其总体所包括的抽样单位数的比值。 方法:()将总体变异原因与程度划分成若干区层,使得区层内变异尽可能小或变异原因相同,而区层间变异比较大或变异原因不明。()在每一个区层按一定的抽样分数独立随机抽样。,相等配置,比例配置,最优配置,如果各区层抽样单位数相等,可采用相等配置,如果各区层抽样单位数不等,可按相应的抽样分数,将欲抽取的抽样单位总数分配到各区层,根据各区层抽样单位数、抽样误差和抽样费用,确定各区层应抽取的抽样单位。,在变异范围较大的区层,抽样分数应大一些;在抽样费用较高的区层,抽样分数应小一些。,分层抽样的抽
12、样单位数目配置方法,()若总体内各抽样单位间的差异比较明显,那么就可以把总体分为几个比较同质的区层,从而提高抽样的准确度;,()分层随机抽样既运用了随机原理,也运用了局部控制原理,这样不仅可以降低抽样误差,也可以运用统计方法来估算抽样误差;,例2.2 现有一块麦田,其长势呈单向趋向式变化,欲抽样估产,如何进行抽样?,(3)整体抽样(cluster sampling),整体随机抽样是把总体分成若干群,以群为单位,进行随机抽样,对抽到的样本进行全面调查。 如果总体内主要变异来源明显来自不同区层间,且每一区层均较大,则应采用分层抽样;若主要变异来源明显来自区层内各单位间,且每一区层所占面积较小,则宜
13、用整体随机抽样。,例如,估计麦田的害虫啃食率,钢材的合格率等;,优点,由于一个整体只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便;,与简单随机抽样相比较,它常提供较为准确的总体估计值。,只要各群抽选单位数相等,整体抽样也可提供总体平均数的无偏估计。,(4)双重抽样(double sampling),变量,变量,简单变量,复杂变量,如果所研究的性状是不容易观察测定的,或必须有较多费用,或要求有精密设备、复杂计算过程与耗费较多调查时间的,或必须进行破坏性测定才能获得观察结果的,由于上述种种原因,直接调查研究这一类型性状是有困难的。,首先,抽取一个初步样本(样本量较小),并搜取
14、一些简单项目以获得有关总体的信息: 做一次随机抽样,调查y (复杂)和x(简单)两种性状,从中求出y 依x 的回归方程。这个样本容量n 不一定很大,但希望x 和y 有较大的幅度。 然后,在此基础上再进行深入抽样。,双重抽其具体步骤,双重抽样的优点: 1.对于复杂性状的调查研究可以通过仅测定少量抽样单位而获得相应于大量抽样单位的精确度; 2.当复杂性状必须通过破坏性测定才能调查时,则仅有这种双重抽样方法可用。,2)顺序抽样(ordinal sampling),顺序抽样又称为系统抽样、机械抽样、等距抽样,它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构成样本。,这种抽样方法可避免人们主观
15、偏见的影响,且使用简便,如果总体内存在周期性变异,则可能会得到一个偏差很大的样本,这种现象在统计上称为系统误差。,由顺序抽样得到的样本不能计算抽样误差,估计总体值。,首先,先将总体从1N相继编号,计算抽样距离K=N/n。式中N为总体单位总数,n为样本容量; 然后,然后在1K中抽一随机数k1,作为样本的第一个单位,接着取k1+K,k1+2K,直至抽够n个单位为止。,顺序抽其的基本做法是:将总体中的各单元先按一定的顺序排列、编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体,例如:欲求100匹马的体重,你抽取20匹马作为样本来称重。 1,K=100/20=5; 2,15中随机选择3,接着
16、抽取8(3+5),13(8+5),98为止。,3)典型抽样(typical sampling),根据初步资料或经验判断,有意识、有目的的选取一个典型群体作为代表(样本)进行调查,以估计整个总体,这种抽样方法就称为典型抽样。 典型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种抽样方法。 这种抽样多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差时,一般不采用这种方法。,试验是通过处理获得样本资料的方法。 采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区
17、组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。 试验设计须遵循的三大原则是:随机、重复和局部控制。,二、试验(experiment),一、试验资料的类型,二、试验资料的搜集,三、试验资料的整理,三、资料的整理,(一)原始资料(raw data)的检查与核对,调查,试验,原始 数据,核对:数据本身是否有错误,检查:取样是否有差错,订正:不合理数据的订正,检查和核对原始资料的目的:确保原始资料的完整性和正确性。 完整性:是指原始资料无遗缺或重复。 正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断
18、)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐 ;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。,整理的步骤,(二)次数(频数)分布表,统计表的结构和要求:结构简单,层次分明,安排合理,重点突出,数据准确。,表号 标题,1、标题 简明扼要、准确地说明表的内容,有时须注明时间、地点。 2、标目 标目分横标目和纵标目两项。横标目列在表的左侧 ,纵标目列在表的上端,标目需 注 明计算单位,如、kg、cm等等。 3、数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致, 无数字的用“”表示,数字是“0”的,则填写“0”。 4、线条 多用三线表,上下两条边线略粗。,1.计数资料的
19、整理,采用单项式分组法进行整理。 特点:用样本变量自然值进行分组,每组用一个或几个变量值来表示。,1117,来亨鸡每月产蛋数变动范围:,分为7组,统计各组次数,计算频率和累积频率,制表,表2-3 100只来亨鸡每月产蛋数次数分布表,1 自然值进行分组,最大值17,最小值11。,2 数据主要集中在14,向两侧分布逐渐减少。,表2-4 小麦品种300个麦穗穗粒数的次数分布表,45组?,9 组,2 计量资料的整理,计量资料一般采用组距式(组限式)分组法。,全距,组数,组距,组限,归组,制表,表2-5 150尾鲢鱼体长(cm),(1)求全距,又称极差 (range):,R=Xmax- Xmin =85
20、-37=48(cm),(2) 确定组数和组距(class boundary),组数是根据样本观测数的多少及组距的大小来确定的,同时考虑到对资料要求的精确度以及进一步计算是否方便。,组数,组距,多,小,统计数精确,计算不方便,少,大,统计数不精确,计算方便,组数的确定,表2-6 样本容量与分组数的关系,组距的确定,即每组内的上下限范围。,组距全距/组数48104.8,10组,5cm,(3)确定组限(class limit)和组中值(class midvalue),组限 是指每个组变量值的起止界限。,上限,下限,组中值 是两个组限的中间值。,第一组的组中值最好接近于资料的最小值,表2-5 150尾
21、鲢鱼体长(cm),最小一组的下限必须小于资料中的最小值,最大一组的上限必须大于资料中的最大值; 组限取到10分位或5分位上,计算方便; 临界值就高不就低。,35,40,45,85。,(4) 归组,确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。,计数的方法,卡片法,唱票法,表2-6 150尾鲢鱼体长的次数分布表,(三)次数分布图和频率分布图,定义:把次数(频率)分布资料画成统计图形。,特点:直观、形象,包括:条形图、饼图、直方图、多边形图和散点图,统计图绘制的基本要求:,(1)标题简明扼要,列于图的下方; (
22、2)纵、横两轴应有刻度,注明单位; (3)横轴由左至右,纵轴由下而上,数值由小到大;图形长宽比例约5:4或6:5; (4)图中需用不同颜色或线条代表不同事物时,应有图例说明。,图2.2 月产蛋数次数分布柱形图,图2.2 月产蛋数频率分布柱形图,条形图(bar chart), 又称柱形图,计数资料,特点: 柱形之间要间隔一定的距离,属性资料,2 饼图(pie chart),图2-3 来亨鸡月产蛋次数分布图,计数资料,属性资料,图2.3 鲢鱼体长次数分布图,3 直方图 (histogram),又称矩形图,计量资料,特点: 各组之间没有距离,组中值,4 多边形图(polygon),又称折线图(bro
23、ken-line chart),计量资料,图2.3 鲢鱼体长次数分布图,组中值,5 散点图(scatter),来亨鸡月产蛋数次数分布散点图,计数资料,5 散点图(scatter),计量资料,图2.3 鲢鱼体长次数分布散点图,学会函数:max,min,sum,countif,countifs等;,Excel中次数分布图表的制作,Previous review,原始数据,无序,有序,统计分析,资料整理,调 查,试 验,资料搜集 的方法,数量性状资料,质量性状资料,计数资料 (非连续变量资料),计量资料 (连续变量资料),变量,定量变量,定性变量,连续变量,非连续变量,资料,离散数据:单项式分组法
24、连续数据:组距分组法,Previous review,第二节 试验资料特征数的计算,集中性 是变量在趋势上有着向某一中心聚集, 或者说以某一数值为中心而分布的性质。 离散性 是变量有着离中分散变异的性质。,变量的分布具有两种明显的基本特征:集中性和离散性。,集中性,离散性,平均数,变异数,算术平均数,中位数,众数,几何平均数,极差,方差,标准差,变异系数,调和平均数,特征数,一、平均数,平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。 (一)平均数的种类: 算术平均数 中位数 众数 几何平均数,1. 算术
25、平均数 (arithmetic mean),定义:总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。,总体:,样本:,样本统计量的抽样分布Sampling distribution,Simmental,如果抽样是随机的,样本平均数也是随机变量,第二节 试验资料特征数的计算,总体,样本1,样本2,样本m,平均数的抽样分布,n ,统计量,?,样本平均数的分布,总体,样本1,样本2,样本m,n ,统计量,?,正态总体样本标准差的分布,标准差的抽样分布,2. 中位数(median),资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。 中位数将该组数值
26、分为两半,理论上有50的变量小于md,有50的变量值大于 md,故又称百分之五十位数,记为P50。,Md,1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:Md =2、当观测值个数为偶 数 时,n/2和(n/2)+1位置的两个观测值之和的1/2为中位数,即:,高,平常测验: 0.20.25 招生考试或水平考试: 0.30.4,区分度,试卷区分度,3. 众数(mode),资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。 注意: (1)对于某些数据而言,如均匀分布,并不存在众数; (2)对于某些数据存在两个或两个以上的众数; (3)主要用来描述频率分
27、布。,M0,4. 几何平均数 (geometric mean),资料中有n个观测数,其乘积开n次方所得数值。,G,适用范围:几何平均数适用于变量x为对数正态分布, 经对数转换后呈正态分布的资料。,G=,(二)算术平均数的计算方法: 直接计算法 减去常数法 加权平均法,1、直接计算法样本含量n30以下、未经分组资料平均数的计算。,例:随机抽取20株小麦测量它们的株高(cm)分别为:79 85 84 86 84 83 82 83 83 84 81 80 81 82 81 82 82 82 80求小麦的平均株高。,若变量xi的值都比较大(或都比较小),且接近某一常数a时,可将它们的值都减去(或加上)
28、常数a,得到一组新的数据,计算其平均数,再重新加上(或减去)常数a。,例:设a为80(cm)则有:79 85 84 86 84 83 82 83 832 1 5 4 6 4 3 2 3 381 80 81 82 81 82 82 82 804 1 0 1 2 1 2 2 2 0,“80”,2、减去(加上)常数法,通常对样本容量n30 且已分组的资料,多在次数分布表的基础上采用加权法计算平均数。,第i组的次数fi是权衡第i个自然值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权数”,加权法也由此而得名。,若为计数资料,且不分组,且 ,此时直接用自然值乘以次数来计算,即,3、加权平均法
29、,例:表 2-8,式中: 第i组的组中值; 第i组的次数; 分组数,若为分组资料,则用每组组中值乘以该组次数之和再除以总次数来计算,计算公式为:,例: 将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权平均数。,表 100头长白母猪仔猪一月窝重次数分布表,即这100头长白母猪仔猪一月龄平均窝重为45.2kg,计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。设 是n1个数的平均数, 是n2个数的平均数,那么全部n1+n2个数的算术平均数是 :,例:某牛群有黑白花奶牛 1500头,其平均体重为750 kg ,而另一牛群有黑白花奶牛1
30、200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:,(三)算术平均数的重要性质,算术平均数与样本内的每个值都相关,它的大小受每个值的影响; 若每个Xi都乘以相同的数k,则原平均数亦应乘以k; 若每个Xi都加上相同的数a,则原平均数亦可直接加上a。,离均差之和等于零。,离均差平方和最小。,(四)算术平均数的作用,(1)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。 (2)作为样本或资料的代表数与其他资
31、料进行比较。 (3)通过平均数提供计算样本变异数的基本数据。 (4)用样本的平均数估计总体平均数。,用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。 如果各观测值变异小,则平均数对样本的代表性强; 如果各观测值变异大,则平均数对样本的代表性弱。,三组同年龄、同性别儿童体重(kg)的数据:I组: 26 28 30 32 34II组: 20 25 30 35 40III组:23 27 30 33 37,三组的平均数均为30,变异如何体现?,例:,集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。 仅用平均数对一个资料的特征作统计描述是不全面的
32、,还需要引入一个表示资料中观测值变异程度大小的统计量。,变异性指标,二、变异数,变异数的种类: 极差 方差 标准差 变异系数,(一)极差(全距,range),极差是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。它是资料中各观测值变异程度大小的最简便的统计量。,R = maxx1,x2, xn - minx1,x2, xn=x1,x2, xnmax - x1,x2, xnmin,表2-5 150尾鲢鱼体长(cm),R=85-37= 48(cm),三组同年龄、同性别儿童体重(kg)的数据:I组: 26 28 30 32 34 8II组: 20 25 30 35 40 20
33、III组: 23 27 30 33 37 14,例:,极 差,简单明了,当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。,除最大、最小值,不能反映组内其他数据的变异。 样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。,优点,缺点,用途,极差,如何准确地表示样本内各个观测值的变异程度,平均数,可以求出各个观测值与平均数的离差,即离均差。,离均差可以反映出一个观测值偏离平均数的性质和程度。,离均差之和为零。,?,平方和(SS),平方和的平均数,样本量越大,会越大!,(二)方差(Variance),样本,总体,?,现有
34、一N=3的近似正态总体,具有变量3,4,5,可以求出 =4, 20.6667, 0.8165。 现以n=2作独立的有放回式抽样。,总共可得到Nn329个样本,=4 20.6667 0.8165,自由度(degree of freedom ,df ),自由度指当以样本的统计量来估计总体的参数时,样本中可以自由变动的变量的个数。 自由度 = 样本个数 - 样本数据受约束条件的个数 在总体平均数未知时,要计算标准差就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。,所以,為了避免使用有
35、bias 的 estimator,我們通常使用它的修正值 S:,正态总体中样本方差的分布,(三)标准差(standard deviation, Sd),样本,总体,样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出样本方差的平方根。,例:,s,20-1,135524 -,1.7502(cm),16462,20,(三)标准差(standard deviation, Sd),特性,标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小,1,各观测数加上或减去一个常
36、数,其标准差不变;,2,各观测数乘以或除以一个常数a,其标准差扩大或缩小a倍。,(三)标准差(standard deviation, Sd),3,2s,3s,68.27%,95.46%,99.73%,(三)标准差(standard deviation, Sd),作用,1,表示变量分布的离散程度。,4,估计平均数的标准误。,3,进行平均数的区间估计和变异系数计算。,2,可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。,标准差是衡量一个样本变量分布变异程度的重要特征数。 当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。 如果度量单位和(或)与平
37、均数不同,比较其变异程度就不能采用标准差来进行了。,变异系数=标准差/平均数,(四)变异系数(coefficient of variability, CV ),定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。,特点:是样本变量的相对变异量,不带单位。可以比较不同样本相对变异程度的大小。,(四)变异系数(coefficient of variability, CV ),大田,穗粒数44.6,标准差17.9丰产田,穗粒数65.0,标准差18.3,大田,CV=17.9/44.6*100%=40.13% 丰产田,CV=18.3/65.0*100%=28.15%,丰产田中粳穗粒数的整齐度优于大田,(四)变异系数(coefficient of variability, CV ),用途,1,比较度量衡单位不同的多组资料的变异度。,例:某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异情况。,身高:CV2.98% 体重:CV9.23%,该地20岁男子体重的变异大于身高的变异。,(四)变异系数(coefficient of variability, CV ),用途,2,比较均数相差悬殊的多组资料的变异度,儿童身高的变异大于成年人身高的变异。,