1、关于中小型银行大数据的统计分析学 院专 业 *班 级 *学 号 *姓 名指导教师沈阳航空航天大学年 月目录前言 1一、采集样本及数据整理 21、数据的搜集方法及说明 .22、数据整理:给出频数、频率分布表及说明 .53、画出直方图和折线图并给出说明 .54、 画出经验分布函数 7二、假定总体服从正态分布,给出 , 的估计 .821、矩估计法 .82、极大似然估计 .8三、参数区间估计 .101、方差 未知,求数学期望 的置信区间 1022、数学期望 , 均未知,求方差 的置信区间 .1022四、参数的假设检验 .111.样本统计数据的 t 检验 .112.样本统计数据的 检验 .112五、 非
2、参数假设检验 13六、结论 .15参考文献 .161前言数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数理规律性作出具有一定可靠性推断的应用数学学科。也就是说,数理统计学是统计学的数学基础,它是研究怎样有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的数学分支。近几十年来,数理统计的广泛应用是非常引人注目的。在社会科学中,选举人对政府意见的调查、民意测验、经济价值的评估、产品销路的预测、犯罪案件的侦破等,都有数理统计的功劳 1。在经济领域,从某种商品未来的销售情况预测,甚至整个国家国民经济状况预测
3、及发展计划的制定都要用到数理统计知识 2。在自然科学、军事科学、工农业生产、医疗卫生等领域,哪一个门类都离不开数理统计。它的用处之大不胜枚举。笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道,都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上讲,数理统计在一个国家中的应用标志着这个国家的科学水平 3。数理统计可以看做是概率论的推广应用,其众多内容都是建立在概率论基础之上的 4。但是,数理统计作为纯数学的一个方向,如果仅仅研究数理统计的数学性
4、质,就脱离了数学在科学研究中应有的价值。正如数学以其逻辑性和严密性被其他学科作为有力工具运用于分析应用中一样,数理统计也因为其逻辑性和严密性被引用到银行的领域中。本文就是对这方面的应用,通过用计算机领域中的信息安全技术,对全国中小型银行的大数据处理个数的统计。其间分别进行了数据模型的选择和建立,数据的采集,数据的整理,对数据进行的统计推断,给出矩法估计、极大似然估计、给出参数估计区间、给出 的 t2,检验和 检验,进行非参数拟合优度检验,从而得出相应的结论。22一、采集样本及数据整理1、数据的搜集方法及说明众所周知,数据的搜集方法有直接搜集方法和间接搜集方法,直接搜集是直接向调查对象搜集反映调
5、查单位的原始资料数据。而我采用的是间接搜集方法,也就是通过网络搜集到已经加工整理过的、能够说明总体现象的数据。本文采集的是 2012 年 5 月 1 日中国部分中小型银行利用信息安全技术对大数据处理个数。如表 11 所示:表 1-1 中国部分中小型银行数据统计地区 银行名称 截止时间 大数据(亿)湖北 孝感市商业银行 2011-10-1 78.54辽宁 丹东市商业银行 2011-10-1 162.33湖南 岳阳市商业银行 2011-10-1 399.56浙江 象山县绿叶城市信用社 2011-10-1 457四川 宜宾市商业银行 2011-10-1 702.22黑龙江 牡丹江市商业银行 2011
6、-10-1 850.5云南 曲靖市商业银行 2011-10-1 1000.55山西 晋中市商业银行 2011-10-1 1023.4山西 阳泉市商业银行 2011-10-1 1233.85四川 遂宁市商业银行 2011-10-1 1355.7湖北 黄石市商业银行 2011-10-1 1379.6山东 枣庄市商业银行 2011-10-1 1388重庆 重庆三峡银行 2011-10-1 1501陕西 宝鸡市商业银行 2011-10-1 1503.8河南 信阳市商业银行 2011-10-1 1722辽宁 鞍山市商业银行 2011-10-1 1795.1河北 邢台市商业银行 2011-10-1 180
7、0湖北 荆州市商业银行 2011-10-1 1800河南 安阳市商业银行 2011-10-1 1800河南 焦作市商业银行 2011-10-1 1801.23内蒙古 乌海市商业银行 2011-10-1 1803.47山东 济宁市商业银行 2011-10-1 1810河南 许昌市商业银行 2011-10-1 1810.32辽宁 抚顺市商业银行 2011-10-1 1812.11内蒙古 呼和浩特市商业银行 2011-10-1 1812.75江西 九江银行 2011-10-1 1815.563河北 秦皇岛市商业银行 2011-10-1 1816河南 平顶山市商业银行 2011-10-1 1928.3
8、8青海 青海银行 2011-10-1 1946.5湖南 湘潭市商业银行 2011-10-1 1958.78湖南 株洲市商业银行 2011-10-1 2000湖南 衡阳市商业银行 2011-10-1 2000福建 泉州市商业银行 2011-10-1 2012.87江西 赣州银行 2011-10-1 2055.47河南 南阳市商业银行 2011-10-1 2106辽宁 阜新市商业银行 2011-10-1 2107湖北 宜昌市商业银行 2011-10-1 2111.64广西 桂林市商业银行 2011-10-1 2165.8黑龙江 齐齐哈尔市商业银行 2011-10-1 2178浙江 湖州市商业银行
9、2011-10-1 2186.8河北 沧州市商业银行 2011-10-1 2207.54河南 新乡市商业银行 2011-10-1 2217广东 湛江商业银行 2011-10-1 2225浙江 浙江泰隆商业银行 2011-10-1 2227.56河北 张家口市商业银行 2011-10-1 2231.08广西 柳州市商业银行 2011-10-1 2240.77河北 冀中银行 2011-10-1 2244浙江 嘉兴市商业银行 2011-10-1 2247广西 广西北部湾银行 2011-10-1 2247.56河北 廊坊银行 2011-10-1 2247.81辽宁 营口银行 2011-10-1 224
10、9辽宁 葫芦岛市商业银行 2011-10-1 2258.36山东 东营市商业银行 2011-10-1 2503浙江 浙江民泰商业银行 2011-10-1 2507山东 德州市商业银行 2011-10-1 2534辽宁 朝阳市商业银行 2011-10-1 2548黑龙江 大庆市商业银行 2011-10-1 2556.6浙江 浙江稠州市商业银行 2011-10-1 2577.56山西 大同市商业银行 2011-10-1 2589.4山东 莱芜市商业银行 2011-10-1 2601.63浙江 金华市商业银行 2011-10-1 2605山东 临商银行 2011-10-1 2609河南 洛阳市商业银
11、行 2011-10-1 2627福建 厦门市商业银行 2011-10-1 2631.23山东 日照市商业银行 2011-10-1 2643.8山西 太原市商业银行 2011-10-1 2652山东 潍坊市商业银行 2011-10-1 2668.4浙江 台州市商业银行 2011-10-1 2675.714山东 威海市商业银行 2011-10-1 2677.6宁夏 宁夏银行 2011-10-1 2679.97浙江 绍兴市商业银行 2011-10-1 2680新疆 乌鲁木齐市商业银行 2011-10-1 2681.5山东 齐商银行 2011-10-1 2682江西 南昌银行 2011-10-1 26
12、88.5山东 烟台市商业银行 2011-10-1 2689甘肃 兰州市商业银行 2011-10-1 2699浙江 温州银行 2011-10-1 2871贵州 贵阳市商业银行 2011-10-1 2886.74河南 郑州市商业银行 2011-10-1 2900山东 青岛市商业银行 2011-10-1 2901辽宁 锦州市商业银行 2011-10-1 2926.7福建 海峡银行 2011-10-1 2936.21云南 富滇银行 2011-10-1 2945.31湖北 汉口银行 2011-10-1 2977.54山东 齐鲁银行 2011-10-1 2998.13河北 石家庄市商业银行 2011-10
13、-1 3005重庆 重庆银行 2011-10-1 3009.87吉林 吉林银行 2011-10-1 3015.24黑龙江 哈尔滨银行 2011-10-1 3044.76内蒙古 包商银行 2011-10-1 3100.9湖南 长沙银行 2011-10-1 3108.56四川 成都银行 2011-10-1 3112.53广东 东莞银行 2011-10-1 3118浙江 杭州市商业银行 2011-10-1 3119.68辽宁 大连银行 2011-10-1 3520辽宁 盛京银行 2011-10-1 3531.26广东 广州银行 2011-10-1 3533.6天津 天津银行 2011-10-1 3,
14、546.72安徽 徽商银行 2011-10-1 3,547.10江苏 南京银行 2011-10-1 3,548.60浙江 宁波银行 2011-10-1 3,712.00广东 深圳平安银行 2011-10-1 3,716.00江苏 江苏银行 2011-10-1 3,855.42上海 上海银行 2011-10-1 3,988.50北京 北京银行 2011-10-1 4,417.65从表 1-1 中,可以非常明显得看到各中小型银行的大数据处理个数,下面我们对各银行做下讨论与研究。52、数据整理:给出频数、频率分布表及说明从上面的表中看到,银行大数据(单元:亿)的样本观察值的最小值是湖北省孝感市商业银
15、行的个数 ,最大值是位于北京市的北京银行54.781x,取 a=78,b=4418,全距 L=4418-78=4340,把数据分布的区间65.417nx(78,4418等分为 10 个子区间,等组距为 ,i=1,2, 10。4310it通过计数求出落在各子区间的大数据个数,则得频数 和频率 分布,innfii列入表 1-2。表 1-2 大数据频数和频率分布表序号 大数据子区间 组中值 频数 in频率 if12345678910(78,512(512,946(946,1380(1380,1814(1814,2248(2248,2682(2682,3116(3116,3550(3550,3984(
16、3984,4418295729116351597203124652899333337674201425142522208320.040.020.050.130.240.210.190.080.030.0213、画出直方图和折线图并给出说明由于等组距,故在横轴上截取子区间,且各子区间的宽度 等于组距it434,第 i 个小矩形的高为组频数,由此从直方图的分布上可以大致看出大数据的分布。直方图 1-1 和折线图 1-2 所示。6图 1-1 频数大数据子区间直方图图 1-2 频数大数据子区间折线图由图 1-1 和图 1-2 可见,直方图大致呈对称形状,可以认为大数据近似服从正态分布,其数学期望大致在
17、 2300 附近。74、 画出经验分布函数由于 依赖顺序统计量的观察值,所以 是一个随机变量,它的可)(xF)(xF能取值为: , , ,1,故 表示 n 次独立试验中,事件n12n)(发生的频率。样本 X1,X 2,X n中 n 个随机变量相互独立,导致事件xX发生的概率等价于进行 n 次伯努力试验,事件 发生 k 次的概)(kF xX率,即 knkknFxCxFP)(1)()(其中 是总体 X 的分布函数。)()xF8二、假定总体服从正态分布,给出 , 的估计21、矩估计法从总体中随机抽取 25 个样本:162.33, 702.22, 1233.85, 1501, 1795.1, 1800
18、, 1928.38, 2000, 2107, 2217,2240.77, 2247.81, 2507, 2577.56, 2627, 2668.4, 2681.5, 2699, 2926.7, 2998.13, 3015.24, 3108.56, 3533.6, 3716, 4417.65 niiXE1)(niiAX122)()(2XED将样本值代入,得出 和 的矩估计值:2的矩估计值为 =2376.5的矩估计值为 =810220.1222、极大似然估计对正态总体 , 是二维参数,设有样本 ,),(2N),(21X, ,则似然函数及其对数分别为2Xn )(2exp)2()(exp21),( 1
19、222 niinii xL )l(l)(1),(ln222 xLnii将 分别关于两个分量求偏导并令其为 0,即得到似然方程组),(ln2L90)(1),(ln2niixL)(),(l1242nii解此方程组,可得 的极大似然估计为 xni1将之代入第二方程,得出 的极大似然估计2niix12)(所以 的极大似然估计量为 Xnii1的极大似然估计量为 2nii122)(将样本值代入,得出 , 的极大似然估计值2=2376.5810353.15210三、参数区间估计1、方差 未知,求数学期望 的置信区间2当 已知时,选取样本的函数服从标准正态分布,即 )1,0(52.9NXZ给定置信水平 0.9
20、5,使 9.).0(025.zP分位数为 ,上式等价于96.1025.z 95.0)6.1596.12( XX则 的置信水平为 0.95 的置信区间为 )4.27,.3().20.37,.50.2376(2、数学期望 , 均未知,求方差 的置信区间22选取样本的函数为 )1()1(222nSn给定置信水平 0.95,使 95.0)4(4)(205.2975.0 P从 分布表查出分位数为 , ,于是2 1.2975.0364.205.9.)4.36.4(2SS样本方差为 844117.9 则 的置信水平为 0.95 的置信区间为2s2 )8.1634,7.54()401.2987,36.9841
21、7()401.,36.9( 11四、参数的假设检验1.样本统计数据的 t 检验假设所有银行所处理的大数据个数都为 2400 亿个。 (1) 原假设和备择假设, 240:0H240:1H(2) 选取检验统计量当原假设为真时,检验统计量为 )1(0ntSXt(3) 确定拒绝域给定显著水平 ,使05.05.)24(05.tP查 t 分布表得临界值为 ,则拒绝域为 或639)025.t 0639.2,(。),0639.2(4) 样本标准差为 ,计算检验统计量的观察值,7.918s128.056.423t(5) 作判断由于 ,因此接受原假设。认为所有银行所处039.218.0639.2t理的大数据均为
22、2400 亿个。2.样本统计数据的 检验2(1) 原假设和备择假设, 80:20H80:21H(2) 选取检验统计量当原假设为真时,检验统计量为12)1(80)1(22nSn(3) 确定拒绝域样本方差为 844117.9,给定显著性水平 ,使2s 0.1.)24(804(01.2SP.)(29.0则拒绝域为(0,10.856 或42.980, )。(4) 计算检验统计量的观察值 325.2(5)作判断 因为 ,所以接受原假设。980.435.856.102135、非参数假设检验拟合优度检验2频率分布如表 1-2 所示,通过画直方图,粗略知大数据个数服从正态分布,数学期望大致在 2300 左右。
23、检验在显著性水平 下,各银行的大数据个01.数 X 是否服从正态分布。原假设和备择假设为, 不真),(:20NXH01:H其中 , 均为未知参数。 , 的极大似然估计值分别为2=2376.5, 2296.以表 1-2 为基础,原假设为真时,计算随机变量 X 落在各小区间的概率 。0ip01.)7.()196.05237()512(10 XPp 367.).2()59.1()96.23542 05910.4().8()3946(30 9100,1367.ip等价检验假设, ,192.:0H0367.p0367.,1p计算结果列于表 5-1。14表 5-1 各区间概率 0ip序号 大数据子区间 频
24、数 ini 0inp02)(iiinp12345678910(78,512(512,946(946,1380(1380,1814(1814,2248(2248,2682(2682,3116(3116,3550(3550,3984(3984,4418524142522208230.01920.03670.07760.13410.17670.18880.16080.10930.06010.0251148.536214.080518.553519.82416.88411.4765635.2100.64960.00572.23990.23890.57511.05311.7405105 6.5028合并
25、后的区间个数为 k=7,随机变量分布中含有两个未知参数,因此当原假设为真时,检验统计量为 71202 )4()(iinp给定显著性水平 ,使05.5.)(205.P临界值为 ,则拒绝域为9.448, )。48.9)(205.检验统计量的观察值为 5028.62因此 ,因此接受原假设,可以认为大数据个数服48.9)(5028.605.2从正态分布 N(2376.5,900.196 2)。15六、结论本文第一部分对全国中小型银行的大数据处理情况分别进行采集、数据整理,给出了频数、频率分布表并画出了直方图和折线图并给出说明,通过得到的图可以看出期望大致在 2300 左右。第二部分给出 , 的估计,包
26、括矩估2计和极大似然估计,从而得到估计的期望和方差。第三部分是参数区间估计,有方差 未知时,在置信水平为 0.95 时得到的数学期望 的置信区间;还有2数学期望 , 均未知,也是置信水平为 0.95 时所得到的方差 的置信区间。 2第四部分是参数的假设检验,有样本统计数据的 t 检验,通过判断接受原假设,可以认为所有银行所处理的大数据均为 2400 亿个。还有样本统计数据的检验,通过分析,可以接受原假设。最后第五章是非参数假设检验,也就2是对总体分布不作任何假设,至多设总体服从连续分布,这种就是非参数假设检验。这章就是针对总体分布未知,检验总体是否服从正态分布,利用样本观察值对总体分布作出推断 5 。实际上是检验样本与理论分布的拟合优度,这一节所用的就是 拟合优度检验,通过检验得出,可以认为样本服从正态分2布 N(2376.5,900.196 2)。16参考文献1 梁相龙.论数理统计在客观现实中的意义与作用J.Forum on Contemporary Education,2011(02)2 李志浩.数理统计与现代金融B.征信,2012(4)3 陆冬梅.数理统计在客观现实中的意义与作用分析A.赤峰学院学 报,2011(8)4 盛骤,谢式千等 .概率论与数理统计M.浙江大学,高等教育出版社,20015 滕素珍,冯敬海 .数理统计学M.大连理工大学出版社,2006