1、1补充材料:累计求和运算规则求和算子定义:对于 T 个观测值,x 1, x2, , xT,求和可以简化地表示为x1 + x2 + + xT = t1其中 称作求和算子。求和算子的运算规则如下:)( 变量观测值倍数的和等于变量观测值和的倍数。= kTttx1Tt1 两个变量观测值和的总和等于它们分别求总和后再求和。= +Tttyx1)(Ttx1ty T 个常数求和等于该常数的 T 倍。= kTtk1其中 k 是常数。 定义双重求和为= xi1 + xi 2 + + xiT) Tjii1(= (x11 + x12 + + x1T) +(x21 + x22 + + x2T) + + (xT1 + x
2、T2 + + xTT) 两个变量和的双重求和等于它们各自双重求和的和。= +jijijTiyx1)(jiix1Tjiy1 两个不同单下标变量积的双重求和等于它们各自求和的乘积。= ( ) ( )Tjjiiyx1Tix1jy证:= = ( ) ( )Tjjiiyx1Ti Ty12).(ix1Tjy2第 3 章 统计资料的综合( Data Summarization)用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数。特征数分三类:(1)表示集中位置;(2)表示分散程度;(3)表示偏斜程度;(4)相关程度。3.1 表示集
3、中位置的特征数:(1)平均数;(算术平均数,几何平均数,调和平均数)(2)中位数;(3)众数;(4)百分位数;3.1.1 平均数(1)算术平均数(Arithmetic mean)对于不分组数据算术平均数定义:一组数据, (x 1, x2, , x n) ,容量为 n,则算术平均数 表示为x= = (1)xn.21ni1例 1:5 个学生的英语考试分数是 80, 70, 85, 90, 82。则平均考试分数= = 81.4x590807算术平均数的性质: 观测值的和等于其平均数与观测值个数的乘积。对(1)式两侧同乘 n 得,= nix说明 有代表性。若不考虑 xi 的差异。用 代替 xi,并乘
4、n,则总和相等。所以人们常用 描述数据。如平均年龄,平均工资等。 一组观测值与其平均数的离差和等于零。= 0)(1xni证: = = - n = 0(利用性质))(1nixiix此性质以后常常用到。 x i 与某一定值 A 的离差平方和- A)2nix1(以 A = 时为最小。x证: - A)2 = + ( - A) 2 = 2 + 2 ( - A) + ni1()(1xnii )(1xni )(1xni21)(Ani3= + 2)(xi 2)(An可见只有当 = A 时,方程左端 的值才最小。xi当数据为分组形式时, = (f1x1 + f2 x2 + + fk xk ) (2)xikifn
5、1其中:k 为分组数;x i 为第 i 组的组中值;f i 为观测值落入第 i 组的频数;n 为观测值总个数,n = f 1 + f2 + + fk。分组数据形式下求得的平均数,只是用原始数据计算的 的近似值。只有当各组中值x与相应组内观测值的平均值全相等时, (1) 、 (2)式的计算结果才相等。因此,只要条件允许,应该用原始数据直接计算。当 n 很大时,由(2)式计算的 的误差会减小。例 2:见 30 页例 2。例 2:见第 2 章例 2,婴儿体重分组数据分布表如下:体重(克) 频数 组中值24002700 以下 2 255027003000 以下 3 285030003300 以下 8
6、315033003600 以下 5 345036003900 以下 2 3750= = 3180x20370.8532若用原始数据直接计算(见第 2 章例 2,北京妇产科医院新生儿体重分布)= = 31496.4(2)几何平均数(Geometric mean)当数据是以环比形式给出时,应该用几何平均数求该数据的平均递增率。定义:一组环比数据 r1, r2, , rn(容量为 n) ,则几何平均数G = (3)nn.,2例 3:有天津市“六五”期间工农业总产值环比指数如下年份 环比指数1980 1.0001981 1.0591982 1.0691983 1.0821984 1.1161985 1
7、.157G = = 1.0965 157.6.082.169.0.1即 19801985 期间年平均年增长率为 9.6%。注意:开方数 n 不要用错。几何平均数的性质:41 r1 r2 rn = G G G(共 n 个)对于环比数据,几何平均数 G 有代表性。若 r0 期观测值为 x0,则x0 r1 r2 rn = x0 G nn 个 G 与 x0 相乘与 r1 r2 rn 与 x0 相乘的值相等。(3)调和平均数(Harmonic mean)当一组数据表示不同比率时,若求平均变化率应该用调和平均数。它是各观测值倒数的算术平均数的倒数。调和平均数定义:设有一组 n 个观测值 x1, x2, ,
8、 x n ,则调和平均值 H 定义如下:H = = (4)nxxn)1(.)(12)(.)(2n注意:这里各数据所赋的权相等。例 4:市场上某种蔬菜早晨价格为 X1 = 0.25 元/斤,中午 X2 = 0.2 元/ 斤,晚上 X3 = 0.1元/斤。若早、中、晚各买 1 元钱的该种蔬菜,求这批蔬菜平均价格。解:要求平均价格应先知共花了多少钱,共买了多少菜。显然共花了 3 元钱,共买了19 斤菜(早晨买 1/0.25 = 4 斤,中午买 1/0.2 = 5 斤,晚上买 1/0.1=10 斤) 。H = = = 0.158 元/斤1.025.13932中位数(Median )算术平均数虽然有代表
9、性,但当数据分布不均匀时,这种代表性显得很差。如观察班上 5 名学生的考试成绩如下:93,90,85,82,0,显然= = 70 x508293没有代表性。因为这五个数据中,有四个值都大于 70,说明受 0 这个极端值影响太大。若没有 0 这个值,平均数应该是 87.5。为避免这种影响,引出中位数的概念。中位数定义(1):一组 n 个观测值,按数值大小排列如下。x 1, x2, , xn,处于中央位置的数值称为中位数。用 Md 表示(Median)x(n+1)/2 n 为奇数Md = (5)xn / 2 + x(n / 2)+1 / 2 n 为偶数例 5:对 5 名学生的考试分数(n 为奇数)
10、 ,则中位数 Md = 85, (比 70 更有代表性) 。93,90, 85,82,0 (因有 5 个数值,5 为奇数。 )例 6:设有一组数据如下(n 为偶数)x1, x2, x3, x4, x5, x6, (n = 6)10 12 14 17 41 66则 Md = ( x 6 / 2 + x (6 / 2) + 1) = ( x3 + x4) = = 15.52217例 7:一组数据是 3,9,6,1,5。哪个是中位数?5按上述要求排序,x1, x2, x3, x4, x5, n = 5 为奇数1 3 5 6 9则Md = x(5+1) / 2 = x3 = 5,即中位数是 5。中位数
11、定义(2):对于分组数据,Md 的计算公式如下:Md = L + (6)hn21其中:L 为中位数所在组的下限值n1 为中位数所在组内,达到中位数所需频数。n 2 为中位数所在组内,观测值总个(频)数。h 为该中位数所在组组距。例 8:把第 2 章例 2 中 20 个新生儿体重数据按从小到大顺序排列如下:2440,2620,2700,2880,2900,3000,3020,3040,3080, 3100, 3180,3200,3200,3300,3420,3440,3500,3500,3600,3860,求: Md(中位数) ,解:1. 当数据不分组时,因为 20 是偶数,Md = (X20
12、/ 2 + X(20 / 2) + 1)/2 = (X10 + X11) /2 = (3100+ 3180) / 2 = 31402. 作频数分布表图,把数据分成 5 组分组 频数 fi X i24002700 以下 2 255027003000 以下 3 285030003300 以下 8 315033003600 以下 5 345036003900 以下 2 3750合计 2020 / 2 = 10, 中位数在第 3 组,组频数 = 8。Md = L+ = 3000+ = 3187hn2105例 9:1987 年 1%抽样调查全国人口,数据与分布图如下。年龄(岁) 人数(万人) 累计人数0
13、-10 以下 195.2781 195.278110-20 以下 248.1611 443.432920-30 以下 195.8780 639.317230-40 以下 161.080440-50 以下 99.6183050-60 以下 85.6192060-70 以下 56.1877070-80 以下 27.3803080-90 以下 6.55840090-100 以下 0.359300100-110 以下 0.009900合 计 1067.9307010202040608010120POULATIONAGE数据的特点是分布不均。年轻人人数多,年老人人数少。平均年龄是 28.8 岁。显然这个
14、特6征数偏高,不能十分满意地反映数据的特征。计算中位数如下。Md 落在第 3 组。Md = 20 + 10 = 20 + 10 = 24.6(岁)870.1954392./306870.19526= 第 3 组下限+(未足数/第 3 组频数)第 3 组距。比平均数 28.8 岁更有代表性。中位数性质:(1) 当观测值出现重复的现象不很多时,中位数意味着比它小的观测值个数有一半,比它大的有一半。若有 2 万农户的年家庭收入数值的中位数为 2000 元,则知有一万户收入低于 2000 元,有一万户收入高于 2000 元。(2) xi 与某一定值 A 的绝对离差和 |xi - A|以 A = Md
15、时取值最小,即 |xi - Md|ni1 ni1取最小值。(3) 中位数不受极端值影响。(4) 中位数可看作是调整平均数的一种特殊形式。计算平均数时,排除了中间位置 1或 2 个观测值以外的所有值。注意:(1) 中位数指的是数据值(在横轴上) ,而不是观测值的频数,也不是秩数。(2) 求中位数之前,应先将观测值按大小排列。3众数(Mode)众数定义:在一组数据中,对应频数最大的那个观测值叫众数,用 Mo 表示。若为分组时,则只能说出众数所在组。例 9:某班 40 名学生的年龄统计如下:人数年龄(岁) 人数19 320 2421 822 5合计 40年龄因为变量值 20 所对应的频数最大,Mo
16、= 20。对于分组数据,MO = L + (7)h21其中 L 是众数所在组下限值; 是众数所在组频数与前一组频数差; 是众数所在组频1 2数与后一组频数差;h 是组距。以例 8“20 个新生儿体重数据”为例,可见“众数”在第3 组。有MO = 3000 + 300 = 3187.535注意:(1)众数指变量值,而不是频数。 (2)若频数分布只有一个峰值,则分布是单峰的,若有两个,则分布是双峰的。有时对峰值的分析很有意义(见 34 页图 3.2) 。4百分位数(Percentile ):百分位数概念是中位数概念的推广。7百分位数定义:一组 n 个观测值按数值的大小顺序排列(由小到大)如下,x1
17、, x2, , xn处于第 p%位置的观测值为第 p 百分位数。所以中位数是第 50 百分位数。第 p 百分位数的秩数是第 n p %位数(如不是整数,取大于它的最小整数) 。例 10:求一组数据 10,12,14,17,41,66 的第 20 百分位数。先求百分位数的序数。这 6 个数值中的第 20 百分位数,即第 6 20% = 1.2 位的数值。因 1.2 不是整数,取 2。所以第二位数,即 12 是第 20 百分位数。实际意义:设第 p 百分位数为 xk 则说明有 p %的观测值大于 xk。注意:(1)25 倍数的百分位数称为四分位数。 (2)可用类似于求中位数的方法求分组数据的百分位
18、数。3.2 表示分散程度的特征数。表示分散程度的特征数有极差(全距) ,平均差,方差,标准差,变异系数等。对于一组数据,只用表示集中位置的特征数描述是不够的,先通过一个例子来说明。设有如下二组数据(9,9.5,10,10.5,11)(8, 9, 10 ,11,12)显然二组数据的算术平均数相等,但二组数据的分布却有很大差异,显然只用表示集中位置的特征数来描述数据是不够的,还应引入一些表示分散程度的特征数。(1) 极差(Range) (全距):极差定义: 设一组数据为(x 1, , xn) ,则全距(用 R 表示)R = x max - x min (8)其中 x max , x min 分别表
19、示该数据中的极大和极小值。极差表示取值范围。以上列二数据为例:R 1 = 11- 9 = 2,R 2 = 12 - 8 = 4。优点:极差计算简便。缺点:没有考虑到中间各值的分布情况。例:股市收市时所报的最高值和最低值。实际给出了极差值。(2) 平均差(Mean absolute deviation):用 MD 表示。定义:MD = |xi - | (不分组数据) (9)nI1MD = |xi - | (分组数据) (10)Kifn1其中 fi 组频数,x i 组中值。MD 的意义:表示数据的平均离散程度。为什么要取离差的绝对值呢?因为离差和= 0。)(i优点:考虑到每个数据得分布情况。缺点:
20、取绝对值不便于运算。8(3)方差(Variance)方差用 S 2 表示,对于不分组数据定义:S 2 = (11)nix12)(方差的意义是数据对平均数的平均离差平方和。实际计算公式是:S 2 = = 2)(xni )2(12xxnii= = (12) (1xi )ni例 11:有下列一组数据,4, 4.2, 4.8, 5, 7, 求 和 S2, (或见 38 页例)= = = 5578.422S2 = = (4-5) 2 + (4.2-5) 2 + (4.8-5) 2 + (5-5) 2 + (7-5) 2 = 1.42)(1xni1对于分组数据定义:S 2 = (13)kiixfN12)(
21、其中:f i 组频数,x i 组中值。与公式( 12)的推导相似,实际计算公式是S 2 = (14)(12xnfnkii例 12:有分组数据如下。求 , S2 (或见 39 页例)观测值 频数 fi 组中值 xi02 1 124 4 346 3 568 3 7合计 n = 11= = (11+34+53+73)= 4.45x)(1iXfnS2 = 2xfi= 1 (1-4.45)2 + 4 (3 - 4.45)2 + 3 (5 - 4.45) 2 + 3 (7 - 4.45)2 10= = 4.077.4S2 = = 21xnfni 45.1)73541(0 222= 259-217.8)=
22、4.19例 13:数据见例 8,求方差。解:1. 数据不分组时S2 = = 349219)3149860(.)340(22. 对于分组数据S2 = = = 33622)(1Xfni 19)318075(.)5(2( 2 = = = 3272)fi 0.380对于不分组总体数据定义方差为观测值平方的均值减去其均值的平方。Var(xt) = = T1ttx2)(T1tx2证明:= -2 xt + 2) = -2 +T1ttx2)(T1tt2(T1tx2T1txTt12= -2 2 + 2 = t1t12为什么总体方差和样本方差的计算公式不一样?请见“点估计”一章。检查对方差概念的理解:对于生产产品
23、来说,希望产品参数方差大,还是方差小?仪仗队人员身高值,和某班学生的身高值,那个方差大?(4)标准差(Standard Deviation):标准差定义: = (15)2为什么还要定义标准差?因为标准差的量纲与原数据一样,而方差为原量纲的平方。而原量纲的平方让人们听起来很不习惯。计算器可以计算平均数、方差、标准差。(5)变异系数(Coefficient of Variation)变异系数定义:C = 100, (16)xS其中:S,标准差; ,平均数。这是一个无量纲的量,特别适用于具有不同平均水平的数据间的比较。例 14:有两个工厂,工人的劳动生产率资料如下。工厂 平均劳动生产率( )x标准差
24、(S) C = 100xS甲厂 16,000 600 3.75乙厂 8,000 400 5.00初看起来甲厂工人劳动生产率数据的标准差大于乙厂。则 甲 的代表性比 乙 差。但xx是 甲 , 乙 悬殊相差。所以不能只依靠标准差下结论。这里用变异系数比较合理。因 C 甲 x10= 3.75,C 乙 = 5.00。因为 C 甲 C 乙 。甲厂的 比乙厂的 更有代表性, (C 乙 大) 。x3.3 表示偏斜程度和陡峭程度的特征数(只适用于单峰情形)给出两个描述偏倚程度的统计量。(1)Pearson 偏斜系数(Pearsons coefficient of skewness )PS = (17)(3Md
25、XPS = 0 时,分布为对称型;PS 0 时,分布为右偏倚。(2)三阶矩偏度(skewness)和峰度(kurtosis ,峭度)的定义。对于时间序列( y1, y2, , yT) ,偏度 S 定义为, f (yt)右偏倚 S 0(18)31)(TttyS众数 中位数 平均数 yt其中 表示 yt 的平均数, 表示 yt 的标准差。这是 yt 的一个三阶矩。偏度表示观测值(数据)分布的不对称程度。由公式知,若分布是以 对称的,则偏度为零。所以若 yt 服从正态分布,则偏度为零;若分布是右偏倚的,则偏度 S 0;若分布是左偏倚的,则偏度 S 0。给出描述陡峭程度的统计量。 f (yt)峰度 K
26、 定义为 正态分布,K =3K 3(19) yt41)(Ttty其中 表示 yt 的平均数, 表示 yt 的标准差。这是 yt 的一个四阶矩。描述分布曲线的陡峭程度。正态分布的峭度为 3。如果一个分布的两侧尾部比正态分布的两侧尾部“胖” ,则该分布的峭度 K 3,反之则 K 3。注意:对于样本数据,上述三个公式中的 应换成样本标准差 S。研究观测值频数分布偏斜性的一个方法是比较众数、中位数、算术平均数的相对位置。绘出三种频数分布类型如下:(单峰情形)a b c Md Mo = Md = Mo MO Md xx x(a)分布为左偏态,有 Md Mox(b)分布为对称态,有 = Md = Mo11
27、(c) 分布为右偏态,有 MO Md x注意:为什么(b)分布是左偏, (c)分布是右偏呢?因为偏斜不是对频数曲线形状来说,而是对观测值分布来说的。以(b)分布为例,观测值落在 MO 以右很远情景不多,但落在 Mo 左边很远的情形很多,所以叫左偏态。同理(c)为右偏态。你能举出一些对称态,左偏态,右偏态分布的实例吗?(1) 一些物理的测量值的分布常为对称态。如:生产线与产品的重量,长度等指标。(2) 单位里,高级职称人员的年龄分布。学生考试分数得分布(特别当考题偏易时) 。人口寿命值分布等情况均为左偏态。(3) 单位里初级职称人员的年龄分布。职工月工资,居民年收入的分布。我国现人口分布等情况均
28、为右偏态。(4)双峰分布。如春节、五一节期间中国日客流量人数分布。3.4 表示变量相关程度的特征数3.4.1 协方差两个随机变量的协方差等于它们乘积的均值减去它们均值的乘积。Cov(xt, yt) = (yt ) = -T1ttxT1ttyx3.4.2 相关系数相关系数 r = =TtTtttyx1212)(-)(- TtTtttyx1212)()(例 15:见例 8,求 Pearson 偏斜系数。解:1. 数据不分组时PS = = = 0.08)(3MdX349)0(2. 对于分组数据,已知 = 3180,Md = 3187,S = 336,xPS = = -0.0636)1870(例 16
29、:天津市建委系统 1988 年中级、初级职称人才年龄分布如下: 分 组 中级人才数(f i)Xi Xi- Fi (XI- )2 fi助级人才数(f i)Xi- Fi (XI- )2 fi2025 8 22.5 25.6 5243 8 489 15.4 115971 4892530 78 27.5 20.6 33100 86 2975 10.4 321776 34643035 301 32.5 15.6 73251 387 4381 5.4 127750 78453540 843 37.5 10.6 94719 1230 5241 0.4 839 130864045 1374 42.5 5.6
30、43089 2604 3452 4.6 73044 165384550 1896 47.5 0.6 683 4500 1673 9.6 1541845055 2148 52.5 4.4 41585 6648 1067 14.6 2274415560 1153 57.1 9.4 101879 7801 711 19.6 2731386065 297 62.5 14.4 61586 8098 115 24.6 69593 20104合计 8098 455135 20104 1363736120510520523040506070MIDLE AGE020406023040506070PRIMAY A
31、GE图 1 中级职称人员年龄分布 图 2 初级职称人员年龄分布中级职称:= = 48.1X809.27. 2 = = = 5602, = 7.5, 12)(iiXf8094513S2 = = 56.2, S = 7.58097453Md = 45 + 5 16204= 第 6 组下限值+ (中位数序数- 组外累积频数)/ 所在组频数)组限 = 48.8PS = = = - 0.28)(3MeX5.7)8(3初级职称:= = 37.92014.6.54892 = = 67.8, = 8.2, 12014376)9.(iiXfMd =35+ 524780= 第 4 组下限值+ (中位数序数- 组外累积频数)/ 所在组频数)组限 = 37.1PS = 0.29)(3MeX.8)1379(例 17:某班组 4 月份发奖金的分组数据如下:序号 奖金分组 获奖人数1 80120 元以下 72 120160 元以下 83 160200 元以下 34 200240 元以下 05 240280 元以下 1合计 19因中位数序数 = 19/2 = 9.5,而 9.5 落在第二组内。 故 L = 120。n 1 = 9.5 - 7 = 2.5,n 2 = 8, h = 160 120 = 40。13Md = 120 + 40 = 132.585.2