1、统计学 01 班 张彦 20112186 1.举例说明什么是分布的位置参数,尺度参数和形状参数.解:韦伯分布得三个参数分别由位置参数,尺度参数和形状参数决定,其中形状参数最重要,韦伯分布用于研究元件寿命与疲劳程度.韦伯分布的密度函数和分布函数分别为: cbuxtceabxf .)(1cxF)(其中 a,b,c 分别代表位置参数,尺度参数和形状参数。a 表示 X 变量的可能最小值,b 确定其尺寸的大小,c 确定其形状2.查阅资料,列举至少两个厚尾分布。给出这些分布的密度函数表达或图形,分析分布特征参数对密度曲线的影响,指出应用领域或应用问题。解:厚尾分布: 从图形上说,较正态分布图的尾部要厚,峰
2、处要尖。直观些说,就是这些数据出现极端值的概率要比正态分布数据出现极端值的概率大。(1)股票变化的厚尾性,从网上搜集到上海,深圳的股票数据 数据是上海、深圳证券交易所的每日股价指数:上海市选用上证 A 股指数每日收盘指数,样本区间为 2012 年 11 月至 2013 年九月;深圳市选用深证 A 股指数每日收盘指数,样本区间同上海市一样。股票收益率民定义为: ,其中 Pt 表示 t 时期的股价指数,Pt-1表示滞后一期的股价指数样本数 均值 标准差 偏度 峰度 上海 222 2177.068 125.061 -0.01794 -1.0363深圳 222 7.100 1.64342 1.3027
3、2 0.65979从偏度和峰度数值可以看出,股票收益分布较正态分布有偏且有狭峰,呈厚尾特征。在 R软件中作图应用于股票市场中:厚尾性越大说明状态持续性越强,在预测股价趋势时历史信息越重要。对投资者来说,能否以及如何从股票市场上获取最大收益,在一定程度上依赖于投资者对股票市场特性的深刻认识。如果我们接受收益服从稳态分布的假设,那么就意味着方差将不存在,从而基于方差一协方差的资产选择理论就必须加以修正,这样所要选择的分布就应允许分布具有狭峰特性。虽然许多分布能用于刻划狭峰、厚尾,但是稳态分布是最适合的,这是由于稳态分布本身所具有的特性所决定的:任何独立的稳态分布 随机变量的线性组合本身也是一个服从
4、稳态分布随机变量,一个联合稳态分布向量的任何分量的线性组合也是稳态的。(2)t 分布 :以0 为中心,左右对称的单峰分布;t 分布是一簇曲线,其形态变化与n(确切地说与 自由度 )大小有关。自由度 越小,t 分布曲线越低平;自由度 越大,t 分布曲线越接近标准正态分布( u 分布)曲线,如图.t(n)分布与标准正态 N(0,1)的密度函数,可见,t 分布有厚尾性质。 ,t 分布是厚尾的仅仅在自由度非常小的情形下。当自由度增大的时候,t 分布峰度极快地趋于零。也就说,只有当自由度小于某个值的时候才有厚尾性质。下面横坐标是自由度,纵坐标是 t 分布的峰度 当自由度趋于无穷大时候,峰度趋于3。另外还
5、有认为,自由度取10 以下,而大于5是比较合适的。T 分布应用: 在概率论和统计学中,t-分布应用在当对呈正态分布的母群体的均值进行估计。它是对两个样本均值差异进行显著性测试的学生 t 测定的基础。t 检定改进了 Z检定(en:Z-test) ,不论样本数量大或小皆可应用。在样本数量大(超过120等)时,可以应用 Z 检定,但 Z 检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用学生 t 检定。在数据有三组以上时,因为误差无法压低,此时可以用变异数分析代替学生 t检定。 当母群体的标准差是未知的但却又需要估计时,可以运用 t-分布。 3.用数学实验方法说明大数定律和中心极限定律的结
6、论。具体要求:指出实验方法 并给出说明过程。解:(1)大数定律:阐明大量重复实验的平均结果具有稳定性的一系列定律1、实验原理:证明大数定理即证明样本均值趋近于总体均值。2、实验步骤: 利用 excel 选取1000个随机数 选择样本的前50个,前100个,前150个前1000个,分别求出均值。利用 excel 作出上述求出值的折线图( 如下图2):从图2中可以看出样本均值最终趋于水平,即趋于总体均值,得证。用一统计软件产生来自某一个特殊分布的随机数,作出相应的理论分布函数图形与经验分布函数图形,理论密度函数图形与直方图。(一) 、实验原理:选用 R 软件进行这个实验,输入 rnorm(n,me
7、an,sd)产生随机数,其中 n 为随机数个数,mean 为所产生随机数的总体所具有的均值,sd 是所产生的随机数的总体所具有的标准差。此次实验用 R 软件产生了 100正态随机数,该正态分布为 XN(0,1)均值为0 ,标准差为1,方差为1.(二) 、实验步骤:rnorm(n=100,mean=0,sd=1)以下是产生的个随机数据 plot(ecdf(sort(x) 出现经验分布函数理论分布函数 curve(pnorm(x),xlim=c(-3,3),col=red,lwd=3) 理论密度 curve(dnorm(x),xlim=c(-3,3),col=blue,lwd=2) 直方图 x h
8、ist(x,freq=F)实验方法 :例证法例:已知 ,求 的值。0ab1210.lim. .aannbbnxxd解:设 , ,为独立同分布的随机变量序列, 服从(0,1)上的均1xn ()nx匀分布, 为独立同分布, 为独立同分布。且2,.,aa12,.,bbx10,aiiExdi12201,aaiiiExdxi2222 ,11aaaiii aD ia又 2222 211 1an nxa 由契贝晓夫大数定律可知:当 是独立的同分布的随机变量序列,且 ,nx21nDx由前面知道是强大数定律可知, ;11lim0nkknPEx由此可知 11li 0nnaakknx即 1limnakx又因为 且
9、故有 ,因此 。0,nxkab,1abkx11nnabkkx由此 ,有1 12 121 110 0. aaaan nn nnbbbbxxxxddxd 根据勒贝格控制收敛定理可知:=1 1210 lim.limabaa nnnbbbn xxxxdPd =1.liabnbnxxP 11daa即 。1210. 1lim.aannbbnxxbda 可以看出,利用大数定律求解数学分析中的重积分和极限收敛问题可以简化,也体现了大数定律等概率论等知识的广泛联系和应用。(2)中心极限定理:是研究独立随机变量和的极限分布为正态分布的问题。讨论随机变量序列部分和的分布渐近于正态分布的一类定理。这组定理是数理统计学
10、和误差分析的理论基础,指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。定义:设从均值为 、方差为 2;(有限)的任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 、方差为 2/n 的正态分布。1、实验原理:证明中心极限定理即证明 N 个独立同分布的随机变量和的极限分布为正态分布。2、实验步骤: 利用 matlab 软件生成随机数,选取100个随机变量; 通过 matlab 软件作出其直方图(如下图1) ; 观察得出,当 N 足够大时,其密度函数服从正态分布,即满足中心极限定理。从图1中可以直观的看出100个随机变量的和近似服从正态
11、分布。程序: clear;close;K=100;N=K;M=100000;r=rand(N,M); %生成随机数mu=N*0.5;sigma=sqrt(N/12);s=sum(r);mu=mean(s); %求随机数的平均值sigma=std(s); %求均方差n,x=hist(s,mu-5*sigma:mu+5*sigma); bar(x,n/M/sigma,r); %绘制直方图hold on;h=mu-5*sigma:0.1*sigma:mu+5*sigma; %取100个点t=exp(-(h-mu).2/2/sigma2)/sqrt(2*pi)/sigma;title(中心极限定理);legend(独立 RV 和,正态分布);hold off;Warning: Ignoring extra legend entries. In legend at 294