1、第一章 数据的整理和描述一. 数据的分类:按照描述的事物分类:分类型数据:描述事物的品质特征,本质表现是文字形式(一般不能相加) ;数量型数据:描述事物的数量特征,用数值形式表示(通常可以相加) ;日期和时间。按照被描述的对象与时间的关系分类:截面数据:描述事物在某一时刻的变化情况(也叫横向数据) ;时间序列数据:描述事物在一定的时间范围内的变化情况(也叫纵向数据) ;平行数据:截面数据与时间序列数据的组合。二. 数据的整理和图表显示:数据的整理1.单值分组法: 数据中不同数据的个数不多时用.2.组距分组法:1) 定数据范围: 找出最大值 max 和最小值 min;适当取 amax; 2) 分
2、组定组距: 分成 m 组,组距 c(b-a)/m; 3) 定各组界限: 确定每组的上、下限; 4) 唱票记频数;5) 算出组频率,组中值; 6) 制作频数(率) 表。数据的图表显示1.饼形图:用来描述和表现各成分或某一成分占全部的百分比。注意,成分份额总和必须是 100;比例必须与扇形区域的面积比例一致。2.条形图:用来对各项信息进行比较。(当各项信息的标识( 名称)较长时,宜用条形图)。3.柱形图:横轴表示时间,纵轴表示数据大小(常用于时间序列数据)。它可以直观地看出事物随时间变化的情况。 4.折线图:明显表示趋势的图示方法。简单、容易理解。5.曲线图:用光滑曲线连接各点,形成一条整体光滑的
3、曲线。6.散点图:用来表现两个变量之间的相互关系,以及数据变化的趋势。7.茎叶图:把数据分成茎与叶两个部分,按一定规律排列。它既保留了所有原始数据,又直观地显示出数据的分布。三. 数据集中趋势的度量:平均数:n 个数据的算术平均数= 数 据 的 个 数全 体 数 据 的 和 nix1分组数据的加权平均数 频 数 的 和频 数 ) 的 和( 组 中 值 miivy1其中 m 为组数,yi 为第 i 组组中值,vi 为第 i 组频数。平均数容易理解,计算;它不偏不倚地对待每一个数据;是数据集的“重心” ;缺点是它对极端值十分敏感。中位数:将数据按从小到大顺序排列,处在中间位置上的一个数或最中间两个
4、数的平均数。中位数对极端值不像平均数那么敏感,因此,如果数据含有极端值,用中位数来描述集中趋势比用平均数更为恰当。众数:数据中出现次数最多的数。它反映了数据中最常见的数值,不仅对数量型数据(数值) 有意义,对分类型数据也有意义;它能够告诉我们最普遍、最流行的款式、尺寸、色彩等产品特征。缺点是一组数据可能没有众数,也可能众数不唯一。四. 数据离散趋势的度量:极差 R=max-min。四分位极差=Q3-Q1。第 2 四分位点 Q2=全体数据的中位数;第 1 四分位点 Q1=数据中所有Q2 的那些数据的中位数;第 3 四分位点 Q3=数据中所有Q2 的那些数据的中位数。四分位极差不像极差 R 那样容
5、易受极端值的影响,但是仍然存在着没有充分地利用数据所有信息的缺点。方差:反映数据离开平均数远近的偏离程度。n 个数据的方差 )()(21122 xnxinni分组数据的方差 mimii yvvy其中 m, yi, vi 同上, n= n 1vi 是数据的个数 , 是分组数据的加权平均数。标准差: (方差的算术平方根,与原来数据的单位相同)2变异系数:v (%) (反映数据相对于其平均数的分散程度)x两组数据的平均数不同或两组数据的单位不同时用。第二章 随机事件及其概率一. 随机试验与随机事件:随机试验:1.可以在相同的条件下重复进行; 2.试验的结果不止一个,但所有可能的结果在试验之前都知道;
6、 3.每次试验之前,不知道这次试验出现哪个结果。样本空间 :1.随机试验中每个可能的结果,称为一个基本事件(或样本点) ; 2.基本事件的全体所组成的集合称为样本空间 (是必然事件); 3.若干个样本点组成的集合(即样本空间的子集 ),称为随机事件(简称事件) ;事件 A 发生 A 中一个样本点出现; 4.只含一个样本点的事件是基本事件,不含任何样本点的事件是不可能事件 。样本空间的表示方法:列举法, 描述法。二. 事件的关系和运算事件的关系:1.包含关系:若 A 发生,则 B 一定发生 (或事件 A 的样本点都包含在 B 中),则称事件 A含于 B(或 B 包含 A),记作 A B(或 B
7、A)。2.相等关系:若事件 A,B 所含样本点相同,则称事件 A 与 B 相等,记作 A=B。事件的运算1.并 AB:A 发生或 B 发生(或 A,B 至少有一个发生)的事件,常记作 A+B。2.交 AB:A,B 同时发生的事件,常记作 AB。3.差AB:A 发生,但 B 不发生的事件。互斥事件:事件 A,B 中若有一个发生,另一个一定不发生 (即 AB= ),则称事件 A,B互斥,否则称 A,B 相容。对立事件:若事件 A,B 互斥,且 AB 是样本空间(即 AB=,A+B=),则称事件 A,B对立(或互逆) 。A 的对立事件记作 (即 A =, A+ =)。一个常用的等式:A-B=A-AB
8、=A运算律:交换律:A+B=B+A, AB=BA;结合律:(A+B)+C=A+(B+C), (AB)C=A(BC);分配律:(A+B)C=AC+BC, (AB)+C=(A+C)(B+C);对偶律: 。BABA,三. 概率的定义:1.(统计)事件 A 发生的频率的稳定值称为 A 的概率,记作 P(A)(0P(A) 1) 。2.(古典)若随机试验的样本空间只含有限个样本点,且每个样本点发生的可能性相同 ,则 P(A)= 。样 本 点 总 数所 含 样 本 点 个 数3.(几何)设质点落在 内任何一点的可能性相同,A, 则质点落在 A 内( 记作事件 A) 的概率 P(A)= =A 的面积。)1(的
9、 面 积的 面 积A两个基本原理1.加法原理:做一件事,有两类办法,第一类有 m 种方法,第二类有 n 种方法,则做完这件事, 共有 m+n 种方法 (可以推广到有多类办法的情况) ;2.乘法原理:做一件事,分两步来做,第一步有 m 种方法,第二步有 n 种方法,则做完这件事, 共有 mn 种方法 (可以推广到多个步骤的情况 )。排列:从 n 个不同元素中任取 r 个 ,按照一定的顺序排成一列, 称为从 n 个不同元素中任取 r 个的一个排列。所有排列的个数, 称为从 n 个不同元素中任取 r 个的排列数,记作 Pr n。组合:从 n 个不同元素中任取 r 个 ,不管怎样的顺序合成一组, 称为
10、从 n 个不同元素中任取 r 个的一个组合。所有组合的个数, 称为从 n 个不同元素中任取 r 个的组合数,记作 Cr n。显然 P1 n=C1 n=n, Cn n=1。四. 概率的性质:0P (A)1, P()=0, P()=1。五. 条件概率:在事件 B(假定 P(B)0)发生的条件下,事件 A 发生的概率称为 A 对 B 的条件概率,记作 P(A|B)。计算公式 P(A|B)= ;)(BPA六. 概率公式:1.互逆概率:对任意事件 A,P(A)+P( )=1;2.加法公式:P(A+B)=P(A)+P(B)-P(AB)可以推广到有限个事件的并的情形,如:P(A+B+C)=P(A)+P(B)
11、+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)3.减法公式:P(A-B)=P(A)-P(AB)特别地, 当 A B 时, P(A-B)=P(A)-P(B) ;4.乘法公式:P(AB)=P(A)P(B|A),P(A)0;5.全概公式:设事件 A1, A2, An 两两互斥, A1+An,且 P(A1)0, , P(An)0, 则对任意事件 B,有 P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)+P(An)P(B|An);6.贝叶斯公式:条件同上,则对任意事件 B (P(B)0),有P(Ai|B)= , i=1,2,n,(分母中的 P(B) 用全概公式求) 。)(|)(
12、BPABPAiiI第三章 随机变量及其分布一. 取值带有随机性,但取值具有概率规律的变量称为随机变量。二. 离散型随机变量:取值可以逐个列出。分布律 P(xi)=pi, i=1,2,或X x1 x2 p p1 p2 数学期望:1.定义:EX= x ipi (以概率为权数的加权平均数 ) ;2.性质:Ec = c (常数期望是本身)E(aX) = aEX (常数因子提出来 )E(aX+b) =aEX+b (一项一项分开算)方差:1.定义:DX=E(X-EX) 2=(x i-EX)2pi;2.性质: Dc =0 (常数方差等于 0)D(aX) =a2DX (常数因子平方提)D(aX+b)=a2DX
13、 (一项一项分开算)3.公式:DX=E(X 2)-(EX)2 (方差=平方的期望-期望的平方) ;常用离散型随机变量:1.(0-1)分布:1) 随机变量 X 只能取 0,1 这两个值;2) XB(1,p) ;3) EX=p, DX=p(1-p)2.二项分布:1) 分布律 P(X=k)=Ck npk(1-p)n-k, k=0,1,2,n;2) XB(n,p) ;3) EX=np, DX=np(1-p)4) 适用:随机试验有两个可能的结果(A 或 ),且 P(A)=p,将该试验独立重复 n 次。A3.泊松分布:1) 分布律:P(X=k)= , k=0,1,2,0 ;ek!2) XP() ;3) E
14、X=, DX= ;4) 适用:在指定时间段(或指定范围 )内某事件发生的次数。三. 连续型随机变量:取某个范围内的一切实数。X 的密度函数 f(x):1) 对任意实数 x, f(x)0;2) 对任意实数 a0efx, ,XE( ) 12正态分布 0)(2)(21,xxpXN(, 2) 2标准正态分 布 eXN(0,1) 0 1正态分布的密度曲线 y=p(x)是一条关于直线 x= 的对称的钟形曲线,在 x= 处最高,两侧迅速下降,无限接近 x 轴; 越小(大) ,曲线越尖(扁) 。标准正态分布的密度曲线 y= (x) 是关于 y 轴对称的钟形曲线。随机变量的标准化 (减去期望除标差) 。DXE标
15、准化定理:设 XN(,2), 则 Z= N(0,1)。四. 二维随机变量:用两个随机变量合在一起 (X,Y) 描述一个随机试验,(X,Y)的取值带有随机性,但取值具有概率规律,则称 (X,Y) 为二维随机变量。X,Y 的协方差:cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-EXEY协方差 cov(X,Y)的正负反映 X,Y 之间相关关系的方向。cov(X,Y)0 表示 X 与 Y 之间存在一定程度的正相关关系;cov(X,Y) 2(n)=分布tXN(0,1),Y 2(n), 独立. t=X/ Ytt(n) Ptt (n)=F 分布 U 2(m), V 2(n), 独立. F= nV
16、mU/FF(m,n) PFF (m,n)=七、 几种重要统计量的分布:设 XN(, 2), X1,Xn 是 X 的样本,样本均值 ,样本方差 :X2S1.t 分布: ;)1()10()(,2 ntNNnn XS, 小 样 本未 知 代标 准 化 2. 2 分布: ;2)1(221SnXnI 3.设 X1,X m; Y1,Y n 分别是 N( 1, 12) ,N( 2, 22) 的样本,且相互独立,则:0()( 212(2 , 标 准 化 nmYX)(1221 )(,tnmSYXS合合 小 样 本未 知代, , im11 niY12(2)1()(nmSS合第五章 参数估计一、 参数的点估计设总体
17、分布中含有未知参数 ,从总体中抽取一个样本 X1,Xn,用来估计未知参数 的统计量 (X1,Xn) 称为 的一个估计量。若 x1,xn 是样本的一组观察值,则称 (x1,x n) 为参数 的一个点估计值。估计量的评价标准:1.无偏性:设 是总体未知参数 的估计量,若 则称 是 的无偏估计量。 E样本均值 是总体均值 的无偏估计量:E =;XX样本方差 S2 是总体方差 2的无偏估计量:ES 2 = 2;样本比例 P 是总体比例 p 的无偏估计量: EP = p。正态总体的样本均值 是总体均值 的有效估计量。3.一致性:若样本容量增大时,估计量 的值越来越接近未知参数 的真值,则称致估计量。样本
18、均值是总体均值的一致估计量;样本方差是总体方差的一致估计量;样本比例是总体比例的一致估计量。二、 参数的区间估计:设 是总体分布中的未知参数,X 1,X n 是总体的一个样本,若对给定的 (0 0 (右侧检验) 拒绝域: Z z H0: 0 H1: 0 Z zXN(, 2) 已知或大样本= 0 0 t t (n-1)XN(,2) 未知,小样本 = 0 p0 Z z大样本 p=p0p 2 Z zXN( 1, 12)YN( 2, 22) 1, 2已知或大样本 1= 2 1 2 t t (m+n-2)XN( 1, 12)YN( 2, 22) 1= 2未知,小样本 1= 2 1p2 1,)(012NP
19、ZHnm为 真Z zp1p2 Z- z第七章 相关与回归分析一、相关分析:线性相关:变量的关系近似线性函数;1 正线性相关:变量同向变化;2 负线性相关:变量反向变化;非线性相关:变量的关系近似非线性函数;完全相关:变量的关系是函数关系;1 完全线性相关:变量的关系是线性函数;2 完全非线性相关:变量的关系是非线性函数;不相关:变量之间没有任何规律。协方差:cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-EXEY总体相关系数: DYXYr),cov(简单相关系数:r= ,(x1,y1),(xn,yn)是总体(X,Y) 的 n 对观察值yxii lyx记22)()(r 反映两个变量之间
20、线性相关的密切程度。lxy=x iyi-n , lxy=x i2-n , lyy=y i2-n二、 一元线性回归:1.如果可以近似地用函数来描述变量之间的相关关系,则称该函数为回归函数;2.若回归函数是线性(一次)函数,则称为线性回归函数;3.若两个变量之间的回归函数是线性函数,则称为一元线性回归函数(其图形称为回归直线);4. 回归直线 ,其中 b=lxy/lxx 称为斜率( 或回归系数), 称为截距。xay xbya5.平方和分解公式 222 )()yyiiii(SST = SSE + SSR ( SST=lyy, SSR=b2lxx )总变差平方和 = 剩余平方和 + 回归平方和总变差平
21、方和:反映 y 1,y n 的分散程度;回 归 平 方 和:反映由于 x1,x n 的分散性引起的 y 1,y n 的分散程度;剩 余 平 方 和:反映其他因素引起的 y 1,y n 的分散程度。6 判定系数:r 2= (回归平方和占总变差平方和的比例) = (相关系数 r)2STR7.判定系数的意义最小二乘法:使因变量的观察值 yi 与估计值 之差的平方和 SSE(剩余平方和)达到最小来求得 a 和 b 的方法,即 SSE= (y i- )i y2=(y i-a-bxi)2=min。8.估计标准误差: s y= 22nyxbanSEiii9.y0 的点估计与区间估计::给定 x=x0y0 的
22、点估计: 0bx个别值 y 0 的预测区间: ;xlnySt 202 )(10)( 平均值 Ey0 的置信区间: 。xlny202 )(多元线性回归和非线性回归:多元线性回归: = b0+ b1x1+ bkxkbi表示在其它变量不变的条件下,x i增加 1 个单位时,y 平均变动 bi个单位.平方和分解公式: SST = SSE + SSR多重判定系数 R2=SSR/SST=(多重相关系数 R)2意义:因变量的总变差中,有 R 2 (%)可以由回归方程来解释。估计标准误差: 1knSEys意义:用 x 1,xk 来预测因变量 y, 平均预测误差为 sy 个单位。可线性化的非线性回归:0r 21
23、 SSE 意 义r20 SSE=SST x 的变化与 y 无关,x,y 没有线性相关关系r21 SSE0, iiy观察点接近回归直线,x,y 高度线性相关r21 SSE0, ii观察点落在回归直线上,x,y 完全线性相关名 称 方 程 变量代换 线性回归双曲函数 y=a+b x1x= x1y=a+bx对数函数 y=a+blogx x=logx y=a+bx幂函数 y=Axb y=logy, x=logx, a=logA y=a+bx多项式函数 y=b0+b1x1+bkxk x1=x,x2=x2,xk=xk y=b0+b1x1+bkxk第八章 时间数列分析一、 时间数列的分类绝对数时间数列时期数
24、列观察值反映现象在一段时期内的总量(可以直接相加) 。时点数列观察值反映现象在某一时刻上的总量(通常不能相加) 。相对数时间数列:两个同类的绝对数的比形成的时间数列(无单位,通常用百分数表示) 。平均数时间数列:两个不同类绝对数的比形成的时间数列(有单位) 。二、 时间数列的序时平均数1.现象在各个时间上的观察值称为发展水平(反映现象的规模和发展的程度) 。2.各个时期发展水平的平均数称为平均发展水平(序时平均数) 。3.序时平均数的计算方法:1) 绝对数时期数列:算术平均法 nY21绝对数时点数列:连续时点:同 上间断时点:加权平均法 121 12231 nnYYYTT(其中 T1,T2,T
25、n-1 是时间间隔长度) T1=T2=Tn-1首末折半法 212YnY2) 相对数,平均数时间数列:分开平均再相比 ba三、时间数列的水平(绝对数)分析增 长 量=报告期水平基 期 水 平;逐期增长量=报告期水平前 期 水 平;累计增长量=报告期水平固定基期水平四、 时间数列的速度(相对数)分析发 展 速 度= ; 增 长 速 度= 发展速度-1基 期 水 平报 告 期 水 平环比发展速度= ; 环比增长速度= 环比发展速度 -1前 期 水 平报 告 期 水 平定基发展速度= ; 定基增长速度= 定基发展速度 -1固 定 基 期 水 平报 告 期 水 平五、平均增长量,平均发展速度,平均增长速
26、度平 均 增 长 量= 各个逐期增长量的算术平均数 = 1观 察 值 个 数累 积 增 长 量逐 期 增 长 量 个 数逐 期 增 长 量 的 和平均发展速度=各环比发展速度的几何平均数;水平法: nYr0累计法: (查表)012Ynrn水平法平均增长速度=平均发展速度 1累计法六、长期趋势分析及预测:1.时间数列的构成要素:T长期趋势;S季节变动;C 循环变动; I不规则变动。2.时间数列的模型:乘法模型Y=TSC I;加法模型Y=TSCI;混合模型等。3.移动平均法:适当扩大时间间隔,逐期移动,算出移动平均趋势,消除短期波动(偶数项要作两次移动平均);4.数学模型法线性模型(直线趋势)以时
27、间 t 作自变量,发展水平 Yt 作因变量 ,用最小二乘法得趋势直线方程。=a+bt, b= , a= (其中 t 用时间编码)tlt/tbt非线性模型(曲线趋势)指数曲线 =abt, 二次曲线 =a+bt+ct2, 修正指数曲线 =K+abt,t ttYGompertz 曲线 =K , Logistic 曲线 = .ttbattbaK1季节变动分析:季节变动的测定:1.按季(月) 平均法;同季(月)平均数(消除随机影响)总季(月)平均数 数 据 个 数全 体 数 据 的 和季节指数 ;(%)(平 均 数月总 季 平 均 数月同 季四季季节指数之和=400%; 平均数=100%;全年季节指数的
28、和=1200%; 平均数=100%四季(或全年) 的移动平均趋势 T (%),消除趋势变动;趋 势 值观 察 值Y将 Y/T 按季( 月 )重新排列,计算同季(月)平均数。季节变动的调整:算出 Y/S (消除季节变动)根据 的数据,配合趋势直线 =a+bt,a= ,b= /lxx (其中 t 为时间编码)SYttbSY)(SYt由趋势直线方程,算出调整后的趋势值。八、 循环变动的测定:剩余法从时间数列中消除趋势变动、季节变动和不规则变动。消除季节变动,计算 SY根据 Y 的数据,配合趋势直线 =a+bt,算出趋势值 T(即 ) ;t消除趋势变动,算出 ( )/TCI,得到循环变动与不规则变动的
29、相对数;SY将 CI 移动平均,消除不规则运动,得到循环变动的相对数。第九章 指数一、 指数的概念与分类:1. 按项目多少分个体指数、综合指数;2. 按反映内容分数量指数、质量指数。1) 数量指数:反映现象总体规模变动程度的相对数;2) 质量指数:反映现象质量指标变动程度的相对数。3. 按计算形式分简单指数、加权指数;4. 按对比场合分时间性指数、区域性指数。二、 加权指数:1. 确定权数的原则:1) 求数量质量指数,用质量数量做权数;2) 求加权综合平均数量指数,用基期质量总量做权数;3) 求加权综合平均质量指数,用报告期数量总量做权数;4) 有时把权数固定在某一特定时期。2. 加权综合和加
30、权平均:加 权 综 合 加 权 平 均权数 质 量 指 数 数 量 指 数 权数 质 量 指 数 数 量 指 数基期质量p0 010/1qp基期总量p0q0 010/1qp报告期数量q110/qp 报告期总量p1q11010/qp拉氏指数: ; ;010/1qp 01010/1 qpqpq帕氏指数: ; ;101100/1/p010/5. 数量“拉氏”要蹲基;质量“帕氏”快报告。6. 总量指数= ;01qp基 期 总 量报 告 期 总 量7. 销售额=价格 销售量, 总成本= 单位成本产量, 生产总值=出厂价格 产量, 生产总值 =劳动生产率职工人数,利税额=销售价格 销售量利税率 , 原材料
31、消耗额=单位原材料价格 单位产品原材料消耗量产量三、 指数体系:1. 销售额指数= 价格指数销售量指数总量指数=质量指数 数量指数;加权综合指数体系: 011001qpqpp 1q1-p 0q0=(p 1q1-p 0q1)+(p 0q1-p 0q0);加权平均指数体系: 01/001p )()( 001/1 11 qpqpqq q个体指数体系: 00pap1q1-p0q0=(p1q1-p0q1)+( p0q1-p0q0) 四、 常用指数:1.零售价格指数1) 反映商品零售价格变动的相对数。2) 计算:由小到大,用加权平均指数形式分级计算。p1/0= 其中 k 为个体或各层的类指数;w 为各层零售额比重权数。wk2.消费价格指数:1) 反映一定时期内生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。2) 计算:p 1/0= wk其中 k 为类指数;w 为权数,分别为消费品零售价格和服务项目营业额占两者总和的比重。3.股票价格指数:1) 股票价格= 存 款 利 率预 期 股 息票 面 价 值 股价平均数= pi n1其中 pi 为第 i 中股票的收盘价,n 为样本股票个数。股票价格指数: p 1/0= 10qp其中 p1 为样本股票报告期价格,p 0 为股票基期价格,q 1 为股票的发行量(一般以报告期发行量为权数) 。