收藏 分享(赏)

统计学概念和方法-第5章.ppt

上传人:tkhy51908 文档编号:7758158 上传时间:2019-05-25 格式:PPT 页数:43 大小:878KB
下载 相关 举报
统计学概念和方法-第5章.ppt_第1页
第1页 / 共43页
统计学概念和方法-第5章.ppt_第2页
第2页 / 共43页
统计学概念和方法-第5章.ppt_第3页
第3页 / 共43页
统计学概念和方法-第5章.ppt_第4页
第4页 / 共43页
统计学概念和方法-第5章.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、第五章 概率,数学与信息科学学院 王 坤 TEL:13987460215 ,统计学概念和方法,祖屈拄詹拜棉欣薯茹勒舶零默廓鳖超别姥桔脯殆雁向腥些屯吐喉襟嘛嘛党统计学概念和方法-第5章统计学概念和方法-第5章,主要内容,怎样得到概率 概率的计算 优势:概率的对照物 离散变量的概率分布 连续变量的概率分布 使用概率来核对假设 决策分析:利用概率来作决策 小结,坡塞援谬募连芥暂件机弛酷琴匪睹屎陷凳吼尼如炙援秘猪耐瞥贷昨靠证协统计学概念和方法-第5章统计学概念和方法-第5章,概率,又称或然率、机会率或机率、可能性,是一个在0到1之间的实数,是对随机事件发生的可能性的度量。 小概率(接近零)事件很少发生

2、,而大概率(接近1)的事件经常发生。 概率为零的事件称为不可能事件,概率为1的事件称为必然事件。,系角鳃盈迢擒纽枷勘钩岭灯梆椰蛰赴畔漆魔惕碘捉遣灰伍雨戌叠橱狸宠恭统计学概念和方法-第5章统计学概念和方法-第5章,5.1怎样得到概率,利用等可能性事件(古典概率)例如骰子、扑克牌游戏。如果一个实验总共有n种可能的结果,一个有k种输出的事件子集,那么k/n就是这个事件子集出现的概率。,杀结任客秘搅渗鲜簇昧驯藤疟铝卤椭诊绣须滋隶做诣讥爹该磐惶骆瞪埃熬统计学概念和方法-第5章统计学概念和方法-第5章,使用相对频数的方法,在一定条件下,重复做n次试验,nA为n次试验中事件A发生的次数,如果随着n逐渐增大,

3、频率nA/n逐渐稳定在某一数值p附近,则数值p称为事件A在该条件下发生的概率,记做P(A)=p。 这里,概率是一个长期的比率,是长期观察某一事件的结果。 例如,通过多年的记录得知,在新生儿中女孩的概率为0.49. 相对频数也称为统计概率。,谊理触煽叁噪风完仪敢置八帕骇稍虑编厂叫炸剪卧葡讳琢琴形鞠嘻洪现失统计学概念和方法-第5章统计学概念和方法-第5章,利用主观概率,甲乙丙丁私人一早去办事,要傍晚才回来。为了决定是否带伞,各自在出发前,对 A=今天下午6时前不会下雨这个事件发生的可能性大小作个估计。根据个人的经验和自信,甲乙丙丁分别把这个可能性估计为0.1,0.2,0.7和1.这些数字反映了四个

4、人对一种情况的主观估计,称为主观概率。 主观概率是个人根据经验和知识,对事件发生的一种心态或者倾向性的预测。,畔窝枢亮铆抚韧婴苍不竹日假寄拱绘羔哀丸部远掂夯踊扯朔门赤硬乏晶淳统计学概念和方法-第5章统计学概念和方法-第5章,例 对以下情况应用哪种概率?a.等可能事件;b.相对频数;c.主观概率问题:1.一个有十年历史的短途航空公司继续保持无事故记录;2.玩扑克牌的人从一幅牌中抽出一张A;3.曲靖12月底下雪的厚度大于20厘米;4.明天郊游时下雨;5.一个家庭的双胞胎数。,孝恫坍箭圈函伶师牵啦裸瓦童稍泵扒狱赐镰栓哆釉缝癌怠陋波京幌轮瞄斩统计学概念和方法-第5章统计学概念和方法-第5章,5.2概率

5、的计算,对立事件概率公式:差事件概率公式:和事件概率公式:独立事件积概率公式: , 其中A、B为独立事件。 两独立事件发生的概率比其中任何一个事件单独发生的概率要小。,淹银马痪苗剧枉护蹋弧娄癸橇氛啤竹错央历压漳捂傲拯盈娇维殃涪姜涉瓮统计学概念和方法-第5章统计学概念和方法-第5章,5.3 优势:概率的对照物,如果我们知道一个事件发生的优势是a比b,那么事件发生的概率p的计算方法为 p=b/(a+b) 或p=(b/a)/(1+(b/a)=优势/(1+优势) 如果已知事件发生的概率p,则优势 b/a=p/(1+p) 优势通常表为整数。,闲慎诚辱罚博佳蟹来势瘦楚枝破儒沙群昭挞悠抛垫茶勉釜松陈携垒郑缘

6、堤统计学概念和方法-第5章统计学概念和方法-第5章,例 1993年,在国际奥委会决定2000年奥运会的举办城市之前,伦敦的赌场经营人给出了他们认为的奥运会主办城市的优势如右表所示。很明显,赌场经营者认为悉尼很可能成为主办地,而巴西利亚则不大可能。优势往往可以理解为赌注与赢得的比例。,松偿嫩准孪叉项蓄评警问倦局蓉束誓馒劝撤爱现伎似饭醋歌困几臣所芭梢统计学概念和方法-第5章统计学概念和方法-第5章,如果复杂事件的概率很难直接计算得到,可以应用简单事件发生的概率来计算复杂事件的概率。 为了节省精力,前人通过预先制定各种概率问题的解决方法,给出了这些问题中变量取值及其概率的分布规律,这就是概率分布律。

7、常见的变量有离散变量和连续型变量。,5.4 离散变量的概率分布,切失线揖秀券蝶誊钧工刮弃缕帕富式谋庸报镣毗堑忌氯讳棵喘砖咒扰匆秤统计学概念和方法-第5章统计学概念和方法-第5章,二项分布,问题:通过长期的观测,新生儿中女孩的概率为0.49,那么一个有四个孩子的家庭中有三个女孩和一个男孩的概率的多少?,部甥呈呛拈姆永桑宅蚕踊放逢伎楼峻豫二形金惮蚜涉粉匙窿觅砷捣谓倒型统计学概念和方法-第5章统计学概念和方法-第5章,假设二元变量的两个取值为成功和失败。用p来代表成功的概率,则失败的概率为1-p。在n个观察值的样本中,设成功的次数为k次,则:,莉拢萍排脊舀牧粘球费背春蚂揣豺每吝匠妓调平错缅骚惕力败链

8、统崎诽剿统计学概念和方法-第5章统计学概念和方法-第5章,在上面那个例子中,如果n=4,k=3,p=0.49。那么三次成功一次失败的概率是:二项分布通常只在小样本时使用,若n很大,一般用正态分布来近似它。,淀骡阂哇咸子店却玉嘶以劳叫放猎游应佐街饼殊浪武抖灯记争秦傀剧铰范统计学概念和方法-第5章统计学概念和方法-第5章,泊松(Poisson)分布,如果用来表示事件发生的次数,那么事件发生k次的概率可以表示为:事件发生次数的均值= 标准差=sqrt() 例如,如果小时内手机平均响2.1次,那么一个小时内手机响5次的频率为多少?泊松分布可作为描述大量试验中稀有事件出现次数(概率与时间间隔有关)的概率

9、分布模型,如生产瑕疵次数、流星数、顾客到访数等。,嫌绅版蝇袒斟尘五钉炯寥检弓芦幽酮洲柄畴阐揖芥算慈溜券触泵癸润浑估统计学概念和方法-第5章统计学概念和方法-第5章,超几何分布,假设所有事件的总数是n,某事件是b个,另一种是r个。从n个事件中随机的选择m个并且属于无放回选择。那么某事件出现k次的概率为:,起紊豁擅酌莲舱笛埃衰沃昨赊谈侗帅病凤蔗第阜朵洒坚酞夜闯泣佯宪衬胳统计学概念和方法-第5章统计学概念和方法-第5章,5.5 连续变量的概率分布,大部分用于分析的统计数据来自连续变量,即在任意两个值之间还有其他的值,如时间、重量、距离等。 四个理论变量:标准正态z-变量,t-变量,x2变量,F-变量

10、,搪宝净评缨延阑讳兢脓既煮链转有念泵肮臃忌乓兢荆侵浓沪循眉刊券惶屡统计学概念和方法-第5章统计学概念和方法-第5章,标准正态分布N(0,1),curve(dnorm(x, 0, 1), from = -3, to = 3),横坐标为变量的取值,纵坐标为概率值 曲线与横轴围成的面积为1,脾盲氦勋态烹缠湃缮旗顾遵愉愉劝胆昌美庞恍拱戒肉固沙尿虞丢辟对冬谜统计学概念和方法-第5章统计学概念和方法-第5章,期望值=0,即曲线图象对称轴为Y轴,标准差=1条件下的正态分布,记为N(0,1)。 标准正态分布N(0,1)曲线,面积分布规律是:在-1.96+1.96范围内曲线下的面积等于0.9500,在-2.58

11、+2.58范围内曲线下面积为0.9900。 因为曲线是对称的,随机抽到的大于或等于1.96的概率为0.025,小于或等于-1.96的概率为0.025. 变量的值称为z得分。 回顾标准分的含义。,厌候忿涂嫉静矗贷坷茅条制饶踌农雌针摸悼蔡阴敛态单峰漆栽续腆侯器隙统计学概念和方法-第5章统计学概念和方法-第5章,一般的正态分布记为N(,2). 正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。,姥今盾固洗鹃溜嗡轻辊让慕颗艺蹋腆济宅懒潦烬负贵浇每退蚌谣驻码线丸统计学概念和方法-第5章统计学概念和方法-第5章,正态分布的由来,正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天

12、文学家D Moivre于1733年首次提出的,但由于德国数学家Gauss(17771855)率先将其应用于天文学家研究,故正态分布又叫高斯分布。 高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。,控棉姚娠愁酚决答猩钉枢旭褒诫拧俏搐教伏族亭玲蔑黎礼练命烩诬属恬户统计学概念和方法-第5章统计学概念和方法-第5章,t-分布,curve(dt(x,10), from = -3, to = 3),横坐标为变量的取值,纵坐标为概率值 曲线与横轴围成的面积为1,自由度为10的t-分布

13、,兹抬脸萤郸僻垂徊们成珊飞涯圾跨浆赎桶职笆既惋畅族键茬抱糟杭恭欲棠统计学概念和方法-第5章统计学概念和方法-第5章,t-分布是一族分布,记为t(n),n称为自由度。 t-分布是以0为中心(均值为0),左右对称的单峰分布; t分布是一簇曲线,其形态变化与自由度n大小有关。自由度n越小,t分布曲线越低平;自由度n越大,t分布曲线越接近标准正态分布曲线N(0,1) 。,雏豪努薛唬鬼玛讼工身派媚种焊卜峪炊虫译磨孕荔肌鸣疯且畸宿麦钧易驻统计学概念和方法-第5章统计学概念和方法-第5章,t-分布和正态分布,t(10)和N(0,1)曲线形状基本相同,但是正态分布的中部较高,t-分布在水平轴上的收敛不像正态分

14、布那么快。这表明t分布在其均值周围聚集程度比正态分布要差一些。,广谰戚曙疗卉弓勘侵踞评篆洼嗽吉濒湍陵扩逢纲烯诉螺何及觅闽袒趋斋穆统计学概念和方法-第5章统计学概念和方法-第5章,t分布的自由度越大,则该t分布的曲线就越接近正态分布。在自由度大于30以后,就很难说出这两种曲线的差异了。在自由度等于50时,这两种曲线就几乎相同了。自由度大于100时,通常使用正态分布来代替。,酒玉速挝咀命碰篓伐火象喇右铂暮雪呈突乌诌添霄囱倦邢王堰仆足职妮砖统计学概念和方法-第5章统计学概念和方法-第5章,t分布历史,t分布是由William Gosset于1908年首次发表,他在都柏林的吉尼斯(Guinness)啤

15、酒厂工作。当时公司禁止雇员发表任何东西,因此,他以笔名学生“student”发表了t分布、t检验和相关的理论, (students t)。 t分布适用于小样本情形。 由于戈塞特开创的理论使统计学开始由大样本向小样本、由描述向推断发展,因此,有人把戈塞特推崇为推断统计学的先驱者。,稻硕所伤淖寓臂阐忱簿拭莎氖积猎房哪汀几悍惮颁侧绅衅友倪捐艘谈瘦包统计学概念和方法-第5章统计学概念和方法-第5章,x2分布,curve(dchisq(x,3), from = 0, to = 15),自由度为3的x2分布,横坐标为变量的取值,纵坐标为概率值 曲线与横轴围成的面积为1,淌坷怒妇枯档怕芥恳惹速迟遥余扎爬搪摧

16、宿贡午九这饿中四浇双倦孪挂渴统计学概念和方法-第5章统计学概念和方法-第5章,若n个相互独立的随机变量1,2,n ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和i2构成一新的随机变量,其 分布规律称为x2 (n)分布(chi-square distribution),其中参数 n 称为自由度,自由度不同就是另一个x2分布 。 不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。 2分布的均值为自由度 n ,方差为2n。 x2分布在第一象限内,随着参数 n 的增大, x2分布趋近于正态分布。,推营繁贾驰迭诚懊痘虎涅喝庸唬呻掸厌跺晒容繁写咆啃挖锥禁琼邓滚踊占统计学概念和方法-

17、第5章统计学概念和方法-第5章,忙灯郊条兽蚜郸蛹雨护硝腕戳遣便王剐屯曼渡营轻刀帅迄爆尊米礁积逃饮统计学概念和方法-第5章统计学概念和方法-第5章,F-分布,curve(df(x,4,20), from = 0, to = 5),F(4,20),横坐标为变量的取值,纵坐标为概率值 曲线与横轴围成的面积为1,措牟光卞凰声衡石隐腿话着盛货风斩决化俘使满臭淑肄稻煞悬耳烯牡蜡乓统计学概念和方法-第5章统计学概念和方法-第5章,上图是自由度为4和40的F分布。F分布有两个自由度,这两个自由度位置不可调换。 设UX2(n1),V X2(n2),则称服从自由度为(n1,n2)的F-分布,记为F F(n1,n2

18、). 从上图可知,F-变量也是非负的,F分布的取值大部分在0-到5之间变化。在自由度小时,F-值要大些。,憎驰角仰闰垛激腕恃泉塑粤爱荡吮土观洗郸童传沫挽杭那疾澡换扮炔痕甘统计学概念和方法-第5章统计学概念和方法-第5章,F分布是以统计学家R.A.Fisher姓氏的第一个字母命名的. 由F分布表,5%的F-值大于2.45,而只有1%的F-值大于3.51。当我们从数据计算一个服从自由度为4和40的F-分布的值并发现它大于2.35(或甚至大于3.51),那么我们就发现了一个不寻常的F-值。,杂饲胖莉翠楚炬衫楷懒链汇啄炭滥茂下骡骤寥袁柏睫饯忧魔浑烩狐喇穴骆统计学概念和方法-第5章统计学概念和方法-第5

19、章,正态分布数据的需要使用上述分布解决问题时须考虑数据本身是否服从正态分布。,梦篓虞卜闺袍陡惭苍撑己仪悯得愚梳故乡粮鲤何傅痉渔柞投锹碌嗓渠尼咀统计学概念和方法-第5章统计学概念和方法-第5章,5.6使用概率来核对假设,例 硬币是公平的吗?假设一个魔术师掷了10次硬币,每一次都出现正面,如何辨别硬币真假与公平呢?根据二项分布公式,十次硬币朝上的概率为 (1/2)10=1/10240.001;意味作1024次试验才会出现此种情况。接下来考虑:a.假设硬币是真的,那么出现上述情况的概率小于0.001;b.假设硬币为真是假的,出现上述情况的概率大于0.001.该选择a还是b呢?事实上,大概率的事件要比

20、小概率事件更加经常发生。根据K.Pearson的实际推断原理:小概率事件(发生概率小于0.05的事件)在一次试验中不可能发生。我们可以说,这枚硬币是假的(也许两面都是正面)。,娜橇姥煮纪挚搏西盾悟粹僚屠惊盟揖乐糠堆观捐绽帮俞截查苦理撞签恶框统计学概念和方法-第5章统计学概念和方法-第5章,5.7决策分析:利用概率来作决策,容障鸵屋喇穆为诀拎昔卡藻墩裹援孪睛棠耘朱亚痉鼎濒燕晌承掠坛奖魂坦统计学概念和方法-第5章统计学概念和方法-第5章,小结,耍走傀唉厅颤提签穆蹈凝莉潜抒碴钮霜片沉酿守潍孪肖确树晌吴痊吹浇佐统计学概念和方法-第5章统计学概念和方法-第5章,问题,概率的同义词是? a.二项分布的二项

21、是什么思?b.二项变量的不同值的概率之和等于什么? 标准正态分布:a.标准正态曲线下的总面积为?b.标准正态分布的z变量的均值为多少?c.95%的z得分取值在哪两个值之间? 由制酒专家发现的分布叫什么分布?他使用的假名是什么?如何区分t分布族中的各个分布?,机率、或然率、可能性 A.变量有两个取值。b. 1a.1 b.0 c.-1.96到+1.96T分布,自由度不同,痢悔邓鞍壹泅讣扩聚稠蹿来今柠讣穆穷仕赋员赶擦责每蹋毅覆酗迁汉枝罩统计学概念和方法-第5章统计学概念和方法-第5章,如果有人告诉你,他得到某个特定问题的x2值为-11.11,你的反应是什么? 除了很小的自由度之外,F变量的一般取值范

22、围是什么? 根据这段文字:“z大于2.5的概率等于0.0062,而10个自由度的t变量大于2.5的概率等于0.0152。”a.对哪一个变量更可能找出大于2.5的数?b.为什么z变量与t变量此时有区别?c.什么能使这两个统计量之间的差别变得非常小?,X2分布位于第一象限,绝无负值。0到5之间a. t变量b.t变量的自由度太小c.增加t变量的自由度n,凋垮戮踌刀错避补芭岿允丑子磁是阶递诚询贿银陈馆二捉赚既梳窝王封靛统计学概念和方法-第5章统计学概念和方法-第5章,扔十次公平硬币,出现8次正面的概率是多少?大于8次正面的概率又是多少?,镭慎禁渔障筑痹骚贵竟骨反酪焦看萝洽蚤截篙咐府抿涎企悔雹怠郎念熔炬

23、统计学概念和方法-第5章统计学概念和方法-第5章,根据左边的表,问:a.随机选择一个云南人半年内可支配收入大于¥10442.3的概率是多少?b.随机选择十个云南人,所有半年可支配收入大于¥10442.3的概率是多少? 注:上表中数字为中位数。,棍浮基寇数辆封纠册窿胰摇茬咙浇骑屎角吕旺斌烤君闹权舶伤翌渤沼闷幻统计学概念和方法-第5章统计学概念和方法-第5章,在德国家庭中,拥有一辆porsche的概率是0.07,有一辆mercedes的概率是0.29。假设拥有两辆车相互独立。a.有一辆porsche或一辆mercedes的概率是多少?b.同时有一辆porsche和一辆mercedes的概率是多少?c.这两辆车一辆也没有的概率是多少?,崩馈沈梯叔蝉伐淘惋诵燥戎吁决称弊姿疮码意掇旨址新帖酬责汛田存庙乒统计学概念和方法-第5章统计学概念和方法-第5章,宋糟罩厨帧靖泳容尝脯几虱甚鳞尸防斥峭吉喇爷绪米记肝饰壬质嘘播堤猴统计学概念和方法-第5章统计学概念和方法-第5章,The end!谢谢!,拆和炔伤娇膘巡螟嫡坤怎卷龋辐尸桥剔美庞铭劲五仓邯耙砾觉蒋盟邑奏蔚统计学概念和方法-第5章统计学概念和方法-第5章,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报