1、EXCEL+ORIGN+SPSS的描述统计,100个果丹皮的长度 单位:cm,一、用ORIGIN进行描述统计(先了解ORIGIN,请参阅ORIGIN介绍文件夹),一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (1)Input Data项:右边下拉框可选择是对当前列统计,还是合并整个数据集统计;
2、 (2)Quantities to Compute项:打开Moments和Quantiles选中其中的复选框可以选择要计算和显示的统计项,Extreme Values复选框:是否计算显示极大/极小值; (3)Output Results项:输出图形或报表选项; (4)Plots:作图,Histograms复选框:是否计算输出柱状统计图;Box Charts复选框:是否计算输出方框统计图。,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 在通过Quantities to
3、 Compute中的设置,Descriptive Statistics项可以显示如下统计项(本章Excel文档有更详细的解释): (1)N Total:数据点数目; (2)N Missing:缺失的数据点数目; (3)Mean:平均值; (4)Standard Deviation:标准偏差; (5)SE of Mean:平均值的标准误差;,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (6)Lower 95% CI of Mean:平均值的95%置信区间的下限; (7)Upper 95% CI of Mean:平均值的95%置信区间的上限; (8)Va
4、riance:标准偏差的平方(方差); (9)Sum:总和; (10)Skeweness:倾斜度数; (11)Kutosis:峰度;,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (12)Uncorrected Sum of Squares:未改正的平方和; (13)Coefficient of Variance:变异系数; (14)Mean absolute Deviation:绝对偏差; (15)SD times 2:标准偏差乘以2; (16)SD times 3:标准偏差乘以3; (17)Geometric Mean:几何平均数; (18)Geo
5、metric SD:几何标准偏差;,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (19)Mode:出现频率最高的数据(众数); (20)Sum of Weight:权重总和; (21)Minimum:最小值; (22)Index of Minimum:最小值的索引; (23)1st Quartile(Q1):插值操作时的Q1值(25%); (24)Median:插值操作时的Q2值(50%); (25)3rd Quartile(Q3):插值操作时的Q3值(75%);,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计
6、 (26)Maximum:最大值; (27)Index of Maximum:最大值的索引; (28)Interquartile Range(Q3-Q1):插值范围; (29)Rang(Maximum-Minimum) :极差; (30)Custom Percentile(s):定制百分位数; (31)Percentile list:是否列出百分位数。,一、用ORIGIN进行描述统计,2. Frequency Counts频率统计 频率/频度统计即将数据分成一系列区间,然后分别计算符合区间的数值。使用StatisticsFrequency Count打开对话框。 主要参数包括如下内容。(1)I
7、nput:数据源;(2)From Minimum:区间最小值;(3)To Maximum:区间最大值;(4)Step by:产生区间段(bins)的方法;包括Increment(增加步长)和Intervals(间隔);(5)Include OutliersMinimum:异常值(Outliers)小于最小值时加入到最小区间段;,一、用ORIGIN进行描述统计,2. Frequency Counts频率统计 主要参数包括如下内容。(6)Include Outliers=Maximum:异常值大于最大值时加入到最大区间段;(7)Bin Center:区间段中值;(8)Bin End:区间段结束值;
8、(9)Count:每个区间段计数;(10)CulmuIative Count:积累计数,即将前面的再累加;(11)Relative Frequency:相对频度;(12)Cumulative Frequency:积累频度;(13)Output:输出目标工作表。,StatisticsFrequency Count,StatisticsFrequency Count,StatisticsFrequency Count,一、用ORIGIN进行描述统计,3. Discrete Frequency离散频率统计 离散频率统计,可以对各个数据段中数据出现的频率进行统计。执行StatisticsDiscret
9、e Frequency命令之后,可以打开StatisticsDescriptive Statistics:discfreqs对话框,其中包括:(1)Frequency复选框:是否统计频率;(2)Percent复选框:是否统计每个频率的百分比;(3)Cumulative Percent复选框:是否统计频率统计的累积百分比;(4)Case Sensitive复选框:是否区分大小写。,一、用ORIGIN进行描述统计,3. Discrete Frequency离散频率统计,一、用ORIGIN进行描述统计,3. Discrete Frequency离散频率统计,一、用ORIGIN进行描述统计,3.Dis
10、crete Frequency离散频率统计,一、用ORIGIN进行描述统计,4. Normality Test正态检验 正态检验可以测试所统计的数据分布是否符合正态分布。执行StatisticsNormality Test命令之后,可以打开Normality Test对话框,其中包括如下几项。(1)Quantities to Compute:正态检验的方法选择,包括Shapiro-Wilk:是否进行Shapiro-Wilk统计;Kolmogorov-Smirnov:是否进行Kolmogorov-Smirnov统计,选中之后可以从Parameters下拉框中选择参数来源Estimated(从输入
11、数据中获得)、Specified(用户指定)、Mean(平均值),一、用ORIGIN进行描述统计,4. Normality Test正态检验 正态检验可以测试所统计的数据分布是否符合正态分布。执行StatisticsNormality Test命令之后,可以打开Normality Test对话框,其中包括如下几项。 和Variance(异常值);Lilliefors:是否进行Lilliefors统计;(2)Output Results:输出选项;(3)Plot:作图选项。,一、用ORIGIN进行描述统计,4. Normality Test正态检验 正态检验可以测试所统计的数据分布是否符合正态分
12、布。执行StatisticsNormality Test命令之后,可以打开Normality Test对话框,其中包括如下几项。 和Variance(异常值);Lilliefors:是否进行Lilliefors统计;(2)Output Results:输出选项;(3)Plot:作图选项。,一、用ORIGIN进行描述统计,4. Normality Test正态检验 SPSS对一组数据进行正态性检验有2种方法,Kolmogorov-Smirnov Test和Shapiro-Wilk Test。Kolmogorov-Smirnov Test检验结果较精确,适用于小样本的检测,而 Shapiro-Wi
13、lk Test适用于大样本的检验,本题n=100(200),因此属于小样本,因此对因变量y进行正态性检验后利用Kolmogorov-Smirnov Test 的输出结果。,一、用ORIGIN进行描述统计,4. Normality Test正态检验,一、用ORIGIN进行描述统计,4. Normality Test正态检验,一、用ORIGIN进行描述统计,4. Normality Test正态检验 Kolmogorov-Smirnov Test 统计量0.06108,显著水平Sig.=0.911460.05,所以因变量y服从正态分布,即y是正态变量可以进行描述统计分析。,一、用ORIGIN进行描
14、述统计,5.常用的统计图形包括直方图、方框图和质量控制图等。 (1)Histogram直方图 选中Worksheet的2个Y列,通过PlotStatisticsHistogram命令,即可生成直方统计图。这个图形可以清楚地比较不同区间里,数据的出现次数。右键单击图形,选择Go to Bin Worksheet命令,可以弹出一个统计表。另外,选择Properties命令可以修改图形的外观。,一、用ORIGIN进行描述统计,(1)Histogram直方图,一、用ORIGIN进行描述统计,(2) Histogram+Probabilities概率直方图 选中Worksheet的B列,通过PlotSt
15、atistics GraphsHistogram+Probabilities命令,即可生成概率直方图。其中上面的图为数据的累积出现个数,下面的则为各个区间里数据出现的次数。另外,右键单击图形,选择Go to Bin Worksheet命令,可以弹出一个与直方图一样的统计表。,一、用ORIGIN进行描述统计,(2)Histogram+Probabilities概率直方图,二、用SPSS进行描述统计(先了解SPSS),二、用SPSS进行描述统计,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二
16、、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,均数:Mean;均数的标准误差:Std. Error of Mean;中位数:Median;众数:Mode;标准差:Std. Deviation;方差:Variance;偏度系数:Skewness;偏度系数的标准误差:Std. Error of Skewness;峰度系数:Kurtosis;峰度系数的标准误差:Std. Error of Kurtosis;极差:全距,Range;最小值:Minimum;最大值:Maximum;总和:Sum;百分位数:percentiles。,二、用S
17、PSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,三、用EXCEL进行描述统计,三、用EXCEL进行描述统计,描述统计量,描述统计量大致可以分为三类: 集中趋势 离中趋势 分布趋势,反映集中趋势的描述统计量,常用的反映集中趋势的描述统计量有五个:算术平均数、调和平均数、几何平均数、中位数和众数。前三个平均数是根据所
18、有标志值计算的,又被称为数值平均数,后两个平均数是根据与其所处位置有关的部分标志值计算的,又被称为位置平均数。,算术平均数,算术平均数是数据集中趋势的最主要的统计描述量。计算算术平均数使用AVERAGE函数,格式为: AVERAGE(NUMBER1,NUMBER2,) NUMBER可以是具体的数值,也可以是单元地址或区域名称。,调和平均数,调和平均数 (又称倒数平均数)是数值倒数算术平均值的倒数。在实际工作中,由于所获数据不能直接代入算术平均数的公式中计算,就需要有倒数平均数的形式。计算调和平均数使用HARMEAN函数,格式为: HARMEAN(NUMBER1,NUMBER2,),几何平均数,
19、几何平均数 是N个数值的连乘积,再开N次方根,它是计算平均比率和平均发展速度最适宜的一种方法,因为其数学性质与现象发展的平均速度形成的客观过程相一致。计算几何平均数使用GEOMEAN函数,格式为: GEOMEAN(NUMBER1,NUMBER2,),中位数,中位数是将全部数值按大小顺序排列后居于中间位置的数值。换句话说,中位数把所有的数值一分为二,有一半数值比它小,另一半数值比它大。 计算中位数使用MEDIAN函数,格式为: MEDIAN(NUMBER1,NUMBER2,),众数,众数是在数列或数据区域中出现频率最多的数值。 计算众数使用MODE函数,格式为: MODE(NUMBER1,NUM
20、BER2,),反映离中趋势的描述统计量,常用的反映离中趋势的描述统计量(简称离中指标)有三个:全距、平均差和标准差(方差)。当对两组数据的差异程度进行相对比较时,往往要计算离散系数,包括全距系数、平均差系数和标准差系数,它等于相应的离中指标除以算术平均数,这样可以消除由于平均数的不同或单位的差异而造成的影响。,全距,全距(又称极差)是最大值与最小值之差,用“MAX(ARRAY)MIN(ARRAY)”求得。ARRAY是指原始资料的存放区域,并且前后应该一致。全距最显著的特点是计算简便、含义清晰,实际工作中常用于产品质量的检验和控制,但全距容易受极端值的影响。,平均差,平均差是各个数据与其算术平均
21、数离差绝对值的算术平均数。 计算平均差使用AVEDEV函数, 格式为:AVEDEV(NUMBER1,NUMBER2,) NUMBER可以是具体的数值,也可以是单元地址或区域名称。 例:AVEDEV(4, 5, 6, 7, 5, 4, 3) 1.020408,标准差,标准差用于反映相对于算术平均数的离散程度。计算标准差的函数有两个,一是STDEV函数,二是STDEVP函数。两者的参数是完全一致的,只是计算的公式略有一点不同。 格式为: STDEV (NUMBER1,NUMBER2,) STDEVP(NUMBER1,NUMBER2,),方差,方差是标准差的平方,它也是衡量离散程度的重要指标。计算方
22、差有两个函数,前者是计算样本方差的,后者是计算总体方差的。格式为: VAR (NUMBER1,NUMBER2,) VARP(NUMBER1,NUMBER2,)。,反映分布趋势的描述统计量,常用的反映分布趋势的描述统计量有两个: 偏斜度 峰值,偏斜度,偏斜度反映以平均值为中心的分布的不对称程度 。 计算偏斜度使用SKEW函数,格式为:SKEW(NUMBER1,NUMBER2,) NUMBER可以是具体的数值,也可以是单元地址或区域名称。正偏斜度表示不对称边的分布更趋向正值。负偏斜度表示不对称边的分布更趋向负值。,峰度,峰度反映与正态分布相比某一分布的尖锐度或平坦度。 计算峰度使用KURT函数,格
23、式为:KURT(NUMBER1,NUMBER2,) NUMBER可以是具体的数值,也可以是单元地址或区域名称。峰值正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。,三、用EXCEL进行描述统计,编制次数分布表的步骤,(1)整列:将所取得的原始数据给予顺序排列,数值小的在前面,数值大的在后面。 (2)求极差: (3)分组:100个变量可分79组或912组。可用公式(K=1+(lgn/lg2)来确定组数。 (4)确定组距:组距是指上一组与下一组的数值之间的差值,通常用i表示。组距一般用整数。如本例中取9组,全距为0.43cm,则组距为:iR/组数0.43/90.0480.05(cm),编制次数
24、分布表的步骤,(5)确定组限与组中值:组限就是各组的变异范围,即各组的上、下限。组中最小的数值称下限;最大的数值称上限。第一组的下限不应由资料中最小的数值开始,而最小的数值则包含在第一组内。同理,最后一组的上限就避免以最大的数值结束,其最大的数值则应包括在最后一组内。,编制次数分布表的步骤,(5) 另外,组限的小数点位数应比数据的小数点位数多一位,这样才能避免数据重复划。上限与下限的平均数称为组中值。用以代表该组所有变数的平均数。组中值应尽量采用整数,以便于计算。组中值加、减二分之一组距,便分别得到该组的上、下限。首先确定第一组的组中值,确定之后,其它各组的组中值及组限便可以依照组距为等级差数依次推出。,编制次数分布表的步骤,(6)计算各组变量所出现的次数:将各组上、下限内所包括的变数分别归入各组,计算各组变量所出现的次数。一般先用记号“正数”计数,然后按记号统计次数,制成次数分布表如下表所示。,100个果丹皮的长度次数分布表,编制次数分布表的步骤,从次数分布表中可以看出,果丹皮长度在10.19510.444cm。为方便起见,可制成次数分布图。次数分布图有方柱形图和多边形图。,