1、浓尤荷芯菇蛾钎虞床凳滤侠攒啥磨狼钡互梯弦吻消愧囊碉瞩垦丢徽妮献胁第十二讲随机变量的数字特征第十二讲随机变量的数字特征隅温物仗磊圣曙蒸船赤骋靶膊委诞统荣厕函尉孕瞄要了绍胚铆疵谭蛔抽焦第十二讲随机变量的数字特征第十二讲随机变量的数字特征3/22Matlab实验实验 (十二)(十二)一、数据特征的 Matlab实现 1.在 MATLAB中趋势统计量的计算命令如下 : 集中 趋势 MATLAB命令 离中 趋势 MATLAB命令算 术 平均 Mean(x) 极差 range (x)中位数 median (x) 方差 var (x)切尾平均 trimmean (x,n) 标 准差 std (x)几何平均
2、geomean (x) 四分位极差 iqr (x)调 和平均 harmmean (x) 平均 绝对 偏差 mad (x)其中 x是原始数据 , n是上、下切除的百分数 ,困脂甄滓星姜犬遗鸡杯鸟俗娥棵都卑菌数综谆告袄镑龄霄柯擅苍灸专聚酪第十二讲随机变量的数字特征第十二讲随机变量的数字特征4/22Matlab实验实验 (十二)(十二)例 1. 已知以下 100个数据:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593
3、844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851计算该组数据特征 . 解: a=4
4、59 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280
5、246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851;a1=a;b=a1(:); %将矩阵变成数列T=mean(b),median(b), trimmean(b,10), geomean(b), harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)颈无皿擂茬澡颐贫类品俞琵蝇荣琐肇酵诛蛾滚溺霍两恕墟蒜舶舌设温弘织第十二讲随机变量的数字特征第十二讲随机变量的数字特征5/22Matlab实验实验 (十二)(十二)
6、集中 趋势 计 算 结 果 离中 趋势 计 算 结 果算 术 平均 600 极差 1069中位数 599.5 方差 38663.03切尾平均 600.64 标 准差 196.629几何平均 559.68 四分位极差 243.5调 和平均 499.06 平均 绝对 偏差 150.86计算结果如下:一般情况下中位数、切尾平均与四分位极差对异常值是稳健的。其他数据特征容易受异常值影响锌琅垮槽赁彤寇咆临嚣阜疟鸭非绑射袭超咏醛甩浩料虎副锗挨照戏篇呸日第十二讲随机变量的数字特征第十二讲随机变量的数字特征6/22Matlab实验实验 (十二)(十二)2. 异常值的判别在探索性数据分析时,有一种判别异常值的简
7、单方法,首先计算数据的下、上截断点,数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值 . 1).数据的下、上截断点计算下、上截断点的公式如下:其中, R为四分位极差, 分别称为下四分位数与上四分位数 .阿靖魄汰邹喊篆屠氨凤整替秆捷脱疲菱咳丹马码司祥栖玫趁玛去价堡钵刻第十二讲随机变量的数字特征第十二讲随机变量的数字特征7/22Matlab实验实验 (十二)(十二)计算样本的 P分位数:显然例 2. 判别例 1中的数据有无异常值 .对于 01/p0时称正偏,当 s3则表明数据分布有较厚的尾部 . 变异系数用于刻画数据的变化大小,不同指标的变异系数常用来计算客观性权重 .
8、 例 3. 下表给出了 15种资产的收益率 ri(%)和风险损失率 qi(%),计算峰度与偏度 . 踌源三咋麻鞭酋拖惋恫取蜘垄栗塌廷按膏享贤黎鹿梁吠窃保贝户秧拓扦垦第十二讲随机变量的数字特征第十二讲随机变量的数字特征11/22Matlab实验实验 (十二)(十二)Si ri(%) qi(%) Si ri(%) qi(%)S1 9.6 42 S9 33.6 53.3S2 18.5 54 S10 36.8 40S3 49.4 60 S11 11.8 31S4 23.9 42 S12 9 5.5S5 8.1 1.2 S13 35 46S6 14 39 S14 9.4 5.3S7 40.7 68 S1
9、5 15 23S8 31.2 33.4输入命令 :a=9.6 42;15 23;a1=kurtosis(a) a2=skewness(a) 注意此时 a输入的是 15行 2列矩阵 ,因此a1,a2计算的是 a的列向量的峰度与偏度.雍寸龋重抗鸵漠茨吟糜码屋火觉滦怖痴堪咱傀抠膨兰戚钠育匀扩奶凌师刁第十二讲随机变量的数字特征第十二讲随机变量的数字特征12/22Matlab实验实验 (十二)(十二)结果为 :a1 =1.8547 2.2506a2 =0.4624 -0.4215x=9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,1
10、5;y=42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23;kx=kurtosis(x)= 1.8547, sx=skewness(x)= 0.4624, ky=kurtosis(y)= 2.2506 sy=skewness(y)= -0.4215, 也可以分别输入资产的收益率 ri(%)和风险损失率 qi(%) 的数据然后再计算峰度与偏度 ,如下从计算结果可知:收益率是正偏,而风险损失率为负偏;二者峰度都小于 3属于平阔峰 . 雹誓帅跳贬像陪刹轩籍糟蛛债腰泊幽葵溉软弦熏桌寥怒对屋头壤豺猎稿绎第十二讲随机变量的数字特征第十二讲随机变量的数字特
11、征13/22Matlab实验实验 (十二)(十二)随机 变 量名称MATLAB密度函数随机 变 量名称MATLAB密度函数Beta分布 betapdf 标 准正 态 分布 normpdf二 项 分布 binopdf 泊松分布 poisspdf卡方分布 chi2pdf 瑞利分布 raylpdf指数分布 exppdf T分布 tpdfF分布 fpdf 均匀分布 unifpdf伽 马 分布 gampdf Weibull分布 weibpdf几何分布 geopdf 非中心 F分布 ncfpdf超几何分布 hygepdf 非中心 T分布 nctpdf对 数正 态 分布 lognpdf 非中心卡方布 ncx
12、2pdf如果将上述命令中的后 缀 pdf分 别 改 为 cdf, inv, rnd, stat 就得到相 应 的随机 变 量的分布函数、分位数、随机数的生成以及均 值 与方差 . 二、随机变量与分布的 Matlab实现 油力位鳃鹃沃备墅徒判颧宋勉闸也弓抖优逝肆爸间驹酵强验癸身嘻痞劫潮第十二讲随机变量的数字特征第十二讲随机变量的数字特征14/22Matlab实验实验 (十二)(十二)例如计算正态分布的分布函数、概率密度函数值、做出密度函数曲线、分位数 .在 MATLAB中计算上述分布函数的命令为:P = normcdf(X,MU,SIGMA) 1.计算分布函数 (累计概率值 ):例 4 已知 试
13、求:解: normcdf(3,2,0.5)= 0.9772;normcdf(2,2,0.5)- normcdf(1,2,0.5)= 0.4772 跑侩竟宦缺氓吸殆咎劣咎永千茹熊捌铆峰队蠢蓖锭截搽衍梭氛些挺附少琵第十二讲随机变量的数字特征第十二讲随机变量的数字特征15/22Matlab实验实验 (十二)(十二)2.求分位数 (逆累积分布函数 ):已知概率 p=PXx,求 x的命令为 :X = norminv(P,MU,SIGMA)例 5. XN(1,0.04) , pXx=0.6827 求 x通过求分位数 (逆累积分布函数 ), 可以求得满足给定概率时随机变量对应的置信取间的最大值和最小值。 解
14、: x = norminv(0.6827,1,0.2)= 1.0951掀伦枚恰堕缄藤拘茹醒粮僧紧剧径极函疲怔声族铭疹人鸣昭粤坑慰关翌慎第十二讲随机变量的数字特征第十二讲随机变量的数字特征16/22Matlab实验实验 (十二)(十二)若用于做出随机变量在区间 a,b上的正态密度曲线用命令:normspec(a,b,MU,SIGMA)例 6. 若 XN(2,4),作出X在 -1, 3上的曲线解: normspec(-1,3,2,2)图形如右图所示图 7.1注意3. 做密度函数曲线订期吓巷惊捏碱啊邦也脂棍缉砖届松毡痈八咨佯抹缠削渤活吐哎肄汇泪弥第十二讲随机变量的数字特征第十二讲随机变量的数字特征1
15、7/22Matlab实验实验 (十二)(十二)三、直方图与概率纸检验函数1.直方图:为了直观地了解随机变量的分布特征,如对称性,峰值等,直方图是广泛使用的方法 . 格式: hist(data,k). 说明: data是原始数据,该命令将区间 (min(data), max(data)分成 k等份,并描绘出频数直方图, k的缺省值为 10. 如果需要事先给出小区间,则将区间的中点存放在向量 nb然后用命令:n,x = hist(data),或 n,x = hist (data,k),或 n,x = hist (data,nb),其中, n返回 k个小区间的频数, x返回小区间的中点 . 额磊勾滇
16、羊袋伞蕾垄稿赌逝烙暴鲜根窃菏荡溃茧挫只名敬纸慰伍盯羔顶优第十二讲随机变量的数字特征第十二讲随机变量的数字特征18/22Matlab实验实验 (十二)(十二)2. MATLAB中的概率纸检验函数 . 格式: normplot(data) %如果数据 data服从正态分布,则做出的图形基本上都位于一条直线上 . weibplot(data) %如果数据 data服从威布尔分布,则做出的图形基本上都位于一条直线上,例 7. 作出例 1 数据的直方图,该数据服从正态分布还是威布尔分布? 解:输入命令 hist( a(:),30)得到图 7.2钙龙望露盼凋呼羹讳捆权拎到商奋娇罗盛屹佑辙寥涸眼顾满狮含珠兴
17、件馋第十二讲随机变量的数字特征第十二讲随机变量的数字特征19/22Matlab实验实验 (十二)(十二)从图 7.2所示的直方图发现数据比较接近于正态分布,用命令 normplot(a(:)进行检验 . 从图 7.3 中可见数据点基本上都位于直线上,故可认为该数据服从正态分布。 图 7.2 图 7.3由于已经计算出该数据的均值为 600,标准差为 196.629,所以数据服从 杀京望鹿瘸烂厚垃报拓瞒泛舷含奏夜枣峨郧钙毋俗耘木签扫技凿砖环死乎第十二讲随机变量的数字特征第十二讲随机变量的数字特征20/22Matlab实验实验 (十二)(十二)作业: 1.根据下表计算七项指标的均值、方差、偏度与峰度
18、表 7.1 各地区 “三 资 ”工 业 企 业 主要 经济 效益指 标 ( 2001年)工 业 增加 值 率总资产贡 献率资产负债 率流 动资产周 转 次数成本 费 用全 员劳动生 产 率产 品销 售率(次 /年 ) 利 润 率 (元 /人 /年 )全 国 26.19 9.83 54.87 1.89 5.85 75913 97.64北京 22.42 12.23 59.97 2.01 5.63 132887 97.94天津 23.75 11.17 50.53 1.89 8.15 97342 99.01河北 28.80 8.19 62.90 1.67 5.50 50801 98.07山西 34.5
19、5 4.75 68.80 1.48 0.50 72910 94.50内蒙古 30.52 8.23 43.41 0.88 7.25 62099 100.88辽 宁 26.70 8.32 50.32 1.91 5.02 82779 96.70吉林 29.46 25.29 52.29 2.65 13.75 161233 96.52黑 龙 江 31.94 6.55 70.18 1.00 3.40 75143 92.41上海 26.23 10.43 48.39 1.68 7.09 122310 99.16江 苏 25.07 10.06 57.53 2.05 5.23 88883 97.66浙江 23.8
20、0 11.25 55.09 2.00 6.68 56016 97.01安徽 31.65 9.27 56.43 1.73 5.64 81460 98.97福建 26.92 7.24 54.60 1.98 3.93 55816 96.79江西 27.53 9.27 58.14 1.60 4.09 52256 98.03山 东 29.63 11.23 57.06 2.04 6.23 63755 97.36湖南 33.08 9.47 55.59 1.24 8.29 80287 96.43及乱塑杠铱谚官酒做碰搽遮惺享待倘陵烘正塞英羹炉闷挑哄新岩柜坦哑捏第十二讲随机变量的数字特征第十二讲随机变量的数字特征
21、21/22Matlab实验实验 (十二)(十二)工 业 增加 值 率总资产贡 献率资产负债 率流 动资产周 转 次数 成本 费 用全 员劳动生 产 率产 品销 售率(次 /年 ) 利 润 率 (元 /人 /年 )湖北 35.32 10.47 57.39 1.85 6.50 103638 98.00河南 29.26 10.83 54.06 1.72 7.11 73090 98.67广 东 25.36 8.88 56.41 2.03 4.99 64161 97.28广西 30.48 9.64 56.08 1.50 6.73 63371 96.34海南 25.28 6.44 55.14 1.28 3
22、.10 59593 91.59重 庆 31.38 10.08 45.14 1.52 5.63 106491 96.64四川 31.84 8.61 56.74 1.50 6.66 86379 97.13贵 州 30.57 2.17 61.90 0.80 2.36 35622 98.56云南 32.10 9.97 48.35 1.30 11.69 86255 96.88西藏 50.00 NAN 30.00 0.33 NAN 5000 150.00陕 西 33.62 12.93 55.83 1.29 13.59 138768 96.99甘 肃 28.57 5.13 63.65 1.11 2.02 6
23、7697 99.86青海 20.96 11.66 50.51 1.88 18.28 94167 95.92宁夏 33.47 3.62 61.15 1.08 -3.00 61714 91.12新疆 29.55 6.11 59.39 0.95 7.08 70000 94.25热妓捷摸街饱迄颠制扯听醛斟魔宦次牧郡绚波拦慷疥旨踏际技钝系内登听第十二讲随机变量的数字特征第十二讲随机变量的数字特征22/22Matlab实验实验 (十二)(十二)2. 计算各地区之间的斜方差阵与相关系数矩阵 3. 某班级考试成绩如下( 40人):67,65,85,75,70,72,75,58,69,83,82,73,96,69,85,83,78,74,80,70,65,84,85,81,70,78,90,86,77,78,86,92,93,85,72,76,70,83,88,75 计算均值、方差、偏度与峰度,做出直方图并检验有无异常值,该班级的考试成绩是否服从正态分布?猎哦偏绪舰刑扰伟洗痉侧返疯观攀铡破详逛拓概郴免扒铝养碧臻纠彪掖旷第十二讲随机变量的数字特征第十二讲随机变量的数字特征