EXCEL+ORIGN+SPSS的描述统计.ppt-道客多多

资源描述

1、EXCEL+ORIGN+SPSS的描述统计,100个果丹皮的长度单位：cm,一、用ORIGIN进行描述统计(先了解ORIGIN，请参阅ORIGIN介绍文件夹),一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (1)Input Data项：右边下拉框可选择是对当前列统计，还是合并整个数据集统计；

2、 (2)Quantities to Compute项：打开Moments和Quantiles选中其中的复选框可以选择要计算和显示的统计项，Extreme Values复选框：是否计算显示极大/极小值； (3)Output Results项：输出图形或报表选项； (4)Plots：作图，Histograms复选框：是否计算输出柱状统计图；Box Charts复选框：是否计算输出方框统计图。,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计在通过Quantities to

3、 Compute中的设置，Descriptive Statistics项可以显示如下统计项(本章Excel文档有更详细的解释)： (1)N Total：数据点数目； (2)N Missing：缺失的数据点数目； (3)Mean：平均值； (4)Standard Deviation：标准偏差； (5)SE of Mean：平均值的标准误差；,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (6)Lower 95% CI of Mean：平均值的95%置信区间的下限； (7)Upper 95% CI of Mean：平均值的95%置信区间的上限； (8)Va

4、riance：标准偏差的平方(方差)； (9)Sum：总和； (10)Skeweness：倾斜度数； (11)Kutosis：峰度；,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (12)Uncorrected Sum of Squares：未改正的平方和； (13)Coefficient of Variance：变异系数； (14)Mean absolute Deviation：绝对偏差； (15)SD times 2：标准偏差乘以2； (16)SD times 3：标准偏差乘以3； (17)Geometric Mean：几何平均数； (18)Geo

5、metric SD：几何标准偏差；,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计 (19)Mode：出现频率最高的数据(众数)； (20)Sum of Weight：权重总和； (21)Minimum：最小值； (22)Index of Minimum：最小值的索引； (23)1st Quartile(Q1)：插值操作时的Q1值(25%)； (24)Median：插值操作时的Q2值(50%)； (25)3rd Quartile(Q3)：插值操作时的Q3值(75%)；,一、用ORIGIN进行描述统计,1. Statistics on Columns列统计

6、 (26)Maximum：最大值； (27)Index of Maximum：最大值的索引； (28)Interquartile Range(Q3-Q1)：插值范围； (29)Rang(Maximum-Minimum) ：极差； (30)Custom Percentile(s)：定制百分位数； (31)Percentile list：是否列出百分位数。,一、用ORIGIN进行描述统计,2. Frequency Counts频率统计频率/频度统计即将数据分成一系列区间，然后分别计算符合区间的数值。使用StatisticsFrequency Count打开对话框。主要参数包括如下内容。(1)I

7、nput：数据源；(2)From Minimum：区间最小值；(3)To Maximum：区间最大值；(4)Step by：产生区间段(bins)的方法；包括Increment(增加步长)和Intervals(间隔)；(5)Include OutliersMinimum：异常值(Outliers)小于最小值时加入到最小区间段；,一、用ORIGIN进行描述统计,2. Frequency Counts频率统计主要参数包括如下内容。(6)Include Outliers=Maximum：异常值大于最大值时加入到最大区间段；(7)Bin Center：区间段中值；(8)Bin End：区间段结束值；

8、(9)Count：每个区间段计数；(10)CulmuIative Count：积累计数，即将前面的再累加；(11)Relative Frequency：相对频度；(12)Cumulative Frequency：积累频度；(13)Output：输出目标工作表。,StatisticsFrequency Count,StatisticsFrequency Count,StatisticsFrequency Count,一、用ORIGIN进行描述统计,3. Discrete Frequency离散频率统计离散频率统计，可以对各个数据段中数据出现的频率进行统计。执行StatisticsDiscret

9、e Frequency命令之后，可以打开StatisticsDescriptive Statistics:discfreqs对话框，其中包括：(1)Frequency复选框：是否统计频率；(2)Percent复选框：是否统计每个频率的百分比；(3)Cumulative Percent复选框：是否统计频率统计的累积百分比；(4)Case Sensitive复选框：是否区分大小写。,一、用ORIGIN进行描述统计,3. Discrete Frequency离散频率统计,一、用ORIGIN进行描述统计,3. Discrete Frequency离散频率统计,一、用ORIGIN进行描述统计,3.Dis

10、crete Frequency离散频率统计,一、用ORIGIN进行描述统计,4. Normality Test正态检验正态检验可以测试所统计的数据分布是否符合正态分布。执行StatisticsNormality Test命令之后，可以打开Normality Test对话框，其中包括如下几项。(1)Quantities to Compute：正态检验的方法选择，包括Shapiro-Wilk：是否进行Shapiro-Wilk统计；Kolmogorov-Smirnov：是否进行Kolmogorov-Smirnov统计，选中之后可以从Parameters下拉框中选择参数来源Estimated(从输入

11、数据中获得)、Specified(用户指定)、Mean(平均值),一、用ORIGIN进行描述统计,4. Normality Test正态检验正态检验可以测试所统计的数据分布是否符合正态分布。执行StatisticsNormality Test命令之后，可以打开Normality Test对话框，其中包括如下几项。和Variance(异常值)；Lilliefors：是否进行Lilliefors统计；(2)Output Results：输出选项；(3)Plot：作图选项。,一、用ORIGIN进行描述统计,4. Normality Test正态检验正态检验可以测试所统计的数据分布是否符合正态分

12、布。执行StatisticsNormality Test命令之后，可以打开Normality Test对话框，其中包括如下几项。和Variance(异常值)；Lilliefors：是否进行Lilliefors统计；(2)Output Results：输出选项；(3)Plot：作图选项。,一、用ORIGIN进行描述统计,4. Normality Test正态检验 SPSS对一组数据进行正态性检验有2种方法，Kolmogorov-Smirnov Test和Shapiro-Wilk Test。Kolmogorov-Smirnov Test检验结果较精确，适用于小样本的检测，而 Shapiro-Wi

13、lk Test适用于大样本的检验，本题n=100(200)，因此属于小样本，因此对因变量y进行正态性检验后利用Kolmogorov-Smirnov Test 的输出结果。,一、用ORIGIN进行描述统计,4. Normality Test正态检验,一、用ORIGIN进行描述统计,4. Normality Test正态检验,一、用ORIGIN进行描述统计,4. Normality Test正态检验 Kolmogorov-Smirnov Test 统计量0.06108，显著水平Sig.=0.911460.05，所以因变量y服从正态分布，即y是正态变量可以进行描述统计分析。,一、用ORIGIN进行描

14、述统计,5.常用的统计图形包括直方图、方框图和质量控制图等。 (1)Histogram直方图选中Worksheet的2个Y列，通过PlotStatisticsHistogram命令，即可生成直方统计图。这个图形可以清楚地比较不同区间里，数据的出现次数。右键单击图形，选择Go to Bin Worksheet命令，可以弹出一个统计表。另外，选择Properties命令可以修改图形的外观。,一、用ORIGIN进行描述统计,(1)Histogram直方图,一、用ORIGIN进行描述统计,(2) Histogram+Probabilities概率直方图选中Worksheet的B列，通过PlotSt

15、atistics GraphsHistogram+Probabilities命令，即可生成概率直方图。其中上面的图为数据的累积出现个数，下面的则为各个区间里数据出现的次数。另外，右键单击图形，选择Go to Bin Worksheet命令，可以弹出一个与直方图一样的统计表。,一、用ORIGIN进行描述统计,(2)Histogram+Probabilities概率直方图,二、用SPSS进行描述统计(先了解SPSS),二、用SPSS进行描述统计,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二

16、、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,均数：Mean；均数的标准误差：Std. Error of Mean；中位数：Median；众数：Mode；标准差：Std. Deviation；方差：Variance；偏度系数：Skewness；偏度系数的标准误差：Std. Error of Skewness；峰度系数：Kurtosis；峰度系数的标准误差：Std. Error of Kurtosis；极差：全距，Range；最小值：Minimum；最大值：Maximum；总和：Sum；百分位数：percentiles。,二、用S

17、PSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 1.频率,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,二、用SPSS进行描述统计 2.描述,三、用EXCEL进行描述统计,三、用EXCEL进行描述统计,描述统计量,描述统计量大致可以分为三类：集中趋势离中趋势分布趋势,反映集中趋势的描述统计量,常用的反映集中趋势的描述统计量有五个：算术平均数、调和平均数、几何平均数、中位数和众数。前三个平均数是根据所

18、有标志值计算的，又被称为数值平均数，后两个平均数是根据与其所处位置有关的部分标志值计算的，又被称为位置平均数。,算术平均数,算术平均数是数据集中趋势的最主要的统计描述量。计算算术平均数使用AVERAGE函数，格式为： AVERAGE(NUMBER1,NUMBER2,) NUMBER可以是具体的数值，也可以是单元地址或区域名称。,调和平均数,调和平均数 (又称倒数平均数)是数值倒数算术平均值的倒数。在实际工作中，由于所获数据不能直接代入算术平均数的公式中计算，就需要有倒数平均数的形式。计算调和平均数使用HARMEAN函数，格式为： HARMEAN(NUMBER1,NUMBER2,),几何平均数,

19、几何平均数是N个数值的连乘积，再开N次方根，它是计算平均比率和平均发展速度最适宜的一种方法，因为其数学性质与现象发展的平均速度形成的客观过程相一致。计算几何平均数使用GEOMEAN函数，格式为： GEOMEAN(NUMBER1,NUMBER2,),中位数,中位数是将全部数值按大小顺序排列后居于中间位置的数值。换句话说，中位数把所有的数值一分为二，有一半数值比它小，另一半数值比它大。计算中位数使用MEDIAN函数，格式为： MEDIAN(NUMBER1,NUMBER2,),众数,众数是在数列或数据区域中出现频率最多的数值。计算众数使用MODE函数，格式为： MODE(NUMBER1,NUM

20、BER2,),反映离中趋势的描述统计量,常用的反映离中趋势的描述统计量（简称离中指标）有三个：全距、平均差和标准差（方差）。当对两组数据的差异程度进行相对比较时，往往要计算离散系数，包括全距系数、平均差系数和标准差系数，它等于相应的离中指标除以算术平均数，这样可以消除由于平均数的不同或单位的差异而造成的影响。,全距,全距（又称极差）是最大值与最小值之差，用“MAX(ARRAY)MIN（ARRAY）”求得。ARRAY是指原始资料的存放区域，并且前后应该一致。全距最显著的特点是计算简便、含义清晰，实际工作中常用于产品质量的检验和控制，但全距容易受极端值的影响。,平均差,平均差是各个数据与其算术平均

21、数离差绝对值的算术平均数。计算平均差使用AVEDEV函数，格式为：AVEDEV(NUMBER1,NUMBER2,) NUMBER可以是具体的数值，也可以是单元地址或区域名称。例：AVEDEV(4, 5, 6, 7, 5, 4, 3) 1.020408,标准差,标准差用于反映相对于算术平均数的离散程度。计算标准差的函数有两个，一是STDEV函数，二是STDEVP函数。两者的参数是完全一致的，只是计算的公式略有一点不同。格式为： STDEV (NUMBER1,NUMBER2,) STDEVP(NUMBER1,NUMBER2,),方差,方差是标准差的平方，它也是衡量离散程度的重要指标。计算方

22、差有两个函数，前者是计算样本方差的，后者是计算总体方差的。格式为： VAR (NUMBER1,NUMBER2,) VARP(NUMBER1,NUMBER2,)。,反映分布趋势的描述统计量,常用的反映分布趋势的描述统计量有两个：偏斜度峰值,偏斜度,偏斜度反映以平均值为中心的分布的不对称程度。计算偏斜度使用SKEW函数，格式为：SKEW(NUMBER1,NUMBER2,) NUMBER可以是具体的数值，也可以是单元地址或区域名称。正偏斜度表示不对称边的分布更趋向正值。负偏斜度表示不对称边的分布更趋向负值。,峰度,峰度反映与正态分布相比某一分布的尖锐度或平坦度。计算峰度使用KURT函数，格

23、式为：KURT(NUMBER1,NUMBER2,) NUMBER可以是具体的数值，也可以是单元地址或区域名称。峰值正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。,三、用EXCEL进行描述统计,编制次数分布表的步骤,(1)整列：将所取得的原始数据给予顺序排列，数值小的在前面，数值大的在后面。 (2)求极差： (3)分组：100个变量可分79组或912组。可用公式(K=1+(lgn/lg2)来确定组数。 (4)确定组距：组距是指上一组与下一组的数值之间的差值，通常用i表示。组距一般用整数。如本例中取9组，全距为0.43cm，则组距为：iR/组数0.43/90.0480.05(cm),编制次数

24、分布表的步骤,(5)确定组限与组中值：组限就是各组的变异范围，即各组的上、下限。组中最小的数值称下限；最大的数值称上限。第一组的下限不应由资料中最小的数值开始，而最小的数值则包含在第一组内。同理，最后一组的上限就避免以最大的数值结束，其最大的数值则应包括在最后一组内。,编制次数分布表的步骤,(5) 另外，组限的小数点位数应比数据的小数点位数多一位，这样才能避免数据重复划。上限与下限的平均数称为组中值。用以代表该组所有变数的平均数。组中值应尽量采用整数，以便于计算。组中值加、减二分之一组距，便分别得到该组的上、下限。首先确定第一组的组中值，确定之后，其它各组的组中值及组限便可以依照组距为等级差数依次推出。,编制次数分布表的步骤,(6)计算各组变量所出现的次数：将各组上、下限内所包括的变数分别归入各组，计算各组变量所出现的次数。一般先用记号“正数”计数，然后按记号统计次数，制成次数分布表如下表所示。,100个果丹皮的长度次数分布表,编制次数分布表的步骤,从次数分布表中可以看出，果丹皮长度在10.19510.444cm。为方便起见，可制成次数分布图。次数分布图有方柱形图和多边形图。,

展开阅读全文