1、第 4 章 随机变量的数字特征指联系于分布函数的某些数,如平均值,离散程度等. 本章介绍随机变量的常用数字特征:数学期望、方差、相关系数、矩等.4.1随机变量的数学期望例 4.1 甲、乙两射击手击中目标的环数用随机变量 、 表示,它们的分布分别如XY下: X p. . . p. . . 试比较甲、乙两射击手射击技术的优劣. 解 假设甲、乙两射击手分别射击 次,则射击手甲击中的总环数为N,106.91.083. N平均环数为 ;3.9射击手乙击中的总环数为,105.94.081. NN平均环数为 .49上述平均环数可以告诉我们,射击手乙的射击技术优于射击手甲.从例 4.1 可以看出,在大量次独立
2、重复试验中,离散型随机变量的平均值总是稳定在一个常数附近,这个常数就是将分布列表中各组对应数据相乘所得乘积的总和,据此,我们给出随机变量数学期望的定义.定义 4.1 设离散型随机变量 X的分布律为 2,1)(ipxXPi .如果 kkpx1,则称 )(XE= iipx1. (4.1)为随机变量 的数学期望,或称为该分布的数学期望,简称期望或均值. 若 1|kxp不收敛,则称 的数学期望不存在.类似地给出连续型随机变量的数学期望的定义.定义 4.2 设连续型随机变量 X的密度函数为 )(xf.如果 |()xfd,则称)(XE= xf)(. (4. 2)为随机变量 的数学期望,或称为该分布的数学期
3、望,简称期望或均值.若|()xfd不收敛,则称 的数学期望不存在.例 4.2 设在某一规定的时间间隔里,某电气设备用于最大负荷的时间 X(以分种计)是一个随机变量,其密度函数为 其 他,03015),30(15,)(2xxxf,求 )(XE.解 = dxxdxdxf )30(15150)( 302205(min) .例 4.3 柯西分布的密度函数为 xxf,1)(2.求 )(XE.解 因为 2|()|xfdd,故 )(不存在.4.1.2 随机变量函数的数学期望按照随机变量 X的数学期望的定义, )(XE由其分布唯一确定,如今若要求随机变量的一个函数 )(g的数学期望,可以通过下面的一个定理来求
4、得.定理 4.1 设 Y是随机变量 的函数: )(gY( 为连续函数) .(1) X是离散型随机变量,它的分布律为 2,1ipxXPi ,若iipxg1)(绝对收敛,则有 )()(XgEYiipx1)((4. 3)(2) 是连续型随机变量,它的密度函数为 )(xf.若 dxfg)(绝对收敛,则有 )()(XgEYdfx)(. (4. 4)定理 4.1 的重要意义在于当求 Y时,不必先算出 Y的分布 .类似于一维随机变量的数学期望,此定理还可以推广到多维随机变量函数的数学期望.定理 4.2 设 Z是二维随机变量( X, Y)的函数: ),(YXgZ( 为连续函数).(1)若二维随机变量( , )
5、的分布律 ijjipyxP,(, ,21,则有 ijjiipyxgYXgEZ1),(),()(. (4. 5)(2)若二维随机变量( , )的密度函数为 ,f,则有dxyyxgg)(,),()((4. 6)这里,假设(4.5) , (4.6)的右端都是绝对收敛的.例 4.4 设随机变量 X的概率密度为 00)(xexfx求 E(e3X)解 .16)(04033 dxeedxfex例 4.5 设随机变量( X, Y)服从二维正态分布,其密度函数为21),(yxeyxf,求 2Z的数学期望 )(ZE.解 dxyeyxZE221)( rded220120211220 dre.4.1.3 数学期望的性
6、质 以下假设所涉及的随机变量的数学期望存在.性质 1 设 C是常数,则有 CE)(.性质 2 设 X是一个随机变量, 是常数,则有 )()(XCE.性质 3 设 Y,是两个随机变量,则有 YYX. 推论 设有随机变量 ,21n 则有 )()(11niiniiE.性质 4 设 X,是两个独立的随机变量,则有 EX.性质 1 和性质 2 可以自己证明.下面就连续情形给出性质 3 和性质 4 的证明,对于离散情形,读者只要将证明中的“积分”用“和式”代替,就能得到证明.证明(性质 3) 设二维随机变量( YX,)的密度函数为 ),(yxf,其边缘密度函数为 )(xfX, fY.由随机变量函数的数学期
7、望知道, dxyfyxE),()(dxyf),()(YEX. 证明(性质 4) 因 ,是两个独立的随机变量,于是)(YEdxyfy),(YX= )(xf )(yf= )(YEX.例 4.6 机场大巴载有 20 位旅客自起点站开出,途经 10 个站点.设每位旅客在各个站点下车是等可能的,且各旅客是否下车相互独立.以 表示停车的次数,求 )(XE.解 引入随机变量 。iXi 站 有 人 下 车在 第 站 没 有 人 下 车在 第,1010,2i.易知 102Xi .按题意,任一旅客在第 站不下车的概率是 9,因此 2位旅客都不在第 i站下车的概率为2019,在第 i站有人下车的概率为01,也就是,
8、09)(2iXP 10,2,09)( iXPi.进而,有 )()1021E()XEX784.1092.本题是将 分解成若干个随机变量之和,然后利用数学期望的性质来求数学期望,这种处理方法具有一定的普遍意义.4.2 随机变量的方差4.2.1 方差的定义例 4.1 曾用平均环数来评判甲、乙两个射击手射击技术的优劣,如果二者平均环数相同,那么仅用平均环数就无法科学地评判两个射击手射击技术的优劣,如下例.例 4.7 甲、乙两射击手击中目标的环数用随机变量 、 表示,它们的分布分别如下:XYX p. . . p.2 .3 . 试比较甲、乙两射击手射击技术的优劣. 解 假设甲、乙两射击手分别射击 次,则射
9、击手甲击中的平均环数为N;3.9106.91.083. N射击手乙击中的平均环数为 .39105.93.082. N其实, 还可以进一步考察射击手环数与平均环数的偏离程度,若偏离程度较小,则表示成绩比较稳定.从这个意义上说,我们认为甲射击手相对于乙射击手较稳定.由此可见,讨论随机变量与其均值的偏离程度是十分有必要的.那么用怎样的量去度量这个偏离程度呢?因为 )(XE 可能为正,也可能为负,为了避免正负偏离相互抵消,自然而然会考虑取,但是绝对值运算不方便. 为了便于运算方便,通常是取 2)(XE,然后求其均值 )(2就可以作为刻画随机变量 X的“波动”程度,这个量被称作为随机变量 X的方差.定义
10、 4.3 设 是一个随机变量,若 2()E存在,则称 2()EX为随机变量 的方差, 记为 )(D或 )(XVar,即2(). (4.7)称方差的算术平方根 )(为随机变量 的标准差或均方差,记为 )(X.方差和标准差的功能相似,它们都是用来描述随机变量取值的集中与分散程度的两个特征数,若 X的取值比较集中,则 )(XD较小,若 的取值比较分散,则 )(D较大.方差与标准差的区别主要在量纲上,由于标准差与所讨论的随机变量的数学期望有相同的量纲,所以在实际中,人们比较喜欢选用标准差,但标准差的计算必须通过方差才能计算.由定义 4.3 知道,方差实际上就是随机变量 X的函数 2)()(XEg的数学
11、期望,于是,对于离散型随机变量,按(4. 7)式有 iiipExXD12)()(, (4.8)其中 ,(pxPii 为 的分布律.对于连续型随机变量,按(4.7)式有 dxfXEx)()(2, (4.9)其中 )(xf为 X的密度函数.随机变量 的方差可按下面公式计算:22)()XEXD. (4.10)事实上,由数学期望的性质 1、性质 2、性质 3 得)()()()( 2XEE22)XE2()(. 4.2.2 方差的性质下面给出数学期望的几个常用性质,以下假设随机变量的数学期望是存在的.性质 1 0)(XD.性质 2 设 C是常数,则有 0)(C.性质 3 是一个随机变量, 是常数,则有 .
12、)()(2XDCd性质 4 设 YX,是两个随机变量,则有.)()(2)()( YEXEDD特别地, 若 ,相互独立,则有 .证明 2)()()(YXYEE)()()()( 22 YEXXDX又)()(YEE)(YEXX )()()(YE.若 YX,相互独立,由数学期望的性质 4 知道 0)()(YEX,于是有)(DXD.同理可证明 (YY.这一性质可推广到任意有限多个相互独立的随机变量之和的情况.例如,若 ,2,1),(niNXii 且它们相互独立,则它们的线性组合:nCC21( C 是不全为 0的常数)仍服从正态分布,于是由数学期望和方差的性质知道: ),(21121 inininNXX.
13、 这是一个重要的结果.例 4.8 若 )6,3(),5(22Y且它们相互独立,求随机变量函数YXZ42的分布. 解 8342)(E, ,764)(22ZD故 .67,8N4.3 常见随机变量的数学期望和方差1.两点分布的数学期望和方差设随机变量 pqX10, pq1,,则 , pqXD)(.E)(证明 ()E,而220(1)p由公式(4.10)知 pqpXEXD)1()(22 .2.二项分布的数学期望和方差设 ,10),(pnBX则 np)(, qD)(.证明 由于随机变量 B,即knkqCP, )1;,20(p ,所以nKkXE0)(knpknKq)!(0= knnk q)!(1knknk
14、qpp11)!()(nq. knnkkkkn qpCpCXE 0022 )1(knnkknq00)1(pCknkn0)(qknk2)!(1npqpknpknnk )2(22)!(q)()1(pn2.于是 nqXEXD22)().3.泊松分布的数学期望和方差设 )(P,则 )(, )(D.证明 由于随机变量 X的分布律为(),01,2!ke.所以随机变量 的数学期望为 ekekXE10 )!(!)(,即 )(. )()()(2 XEX2221()!()!k kkeee 2所以随机变量 X的方差为 22)()XED.由此,泊松分布的数学期望与方差相等,都等于 .又泊松分布只含有一个参数 ,只要知道
15、它的数学期望或方差就能完全确定它的分布了.4.几何分布的数学期望和方差设 ,则 , .)(pGXpXE1)(2)(pD证明 由于随机变量 的分布律为, , 1)(kqP,则称随机变量 X的数学期望为.pkkpE1)(1112122)(kkkqq)(11kkp,pqq2)(3所以随机变量 X的方差为.221)()pXED5.均匀分布的数学期望和方差设 ),(baUX,则 2)(ba, 12)()abD.证明 由于随机变量 X的密度函数为。bxabxf其 他,01)(所以 X的数学期望为2)()( badxbxfXEa .即服从均匀分布随机变量的数学期望位于区间的中点. 2221)() badxb
16、XEDa1ab.6.指数分布的数学期望和方差设 )0(ExpX,则 , 2)(XD.)(E证明 由于 的密度函数为 0,1)(xexfx,所以 X的数学期望为 dxedxfE01)()(e00|)(|x. dxedfXE0222 1)()(exx002)(于是 222)() XEXD.7.正态分布的数学期望和方差设 ),(2N,则 )(, 2)(D.证明 先求标准正态变量 Z的数学期望和方差. Z的密度函数为21)(tet,于是 02121)(22ttedeZEtD)()dtete2211=1.因 ZX,即得,)()ZEX22)(DD.就是说,正态分布的概率密度中的两个参数 和 分别就是该分布
17、的数学期望和均方差,因而正态分布完全由它的数学期望和方差所决定.4.4 协方差与相关系数对二维随机变量( YX,) ,除讨论 Y与 的数学期望和方差外,还有必要考察这两个随机变量之间相互关系. 由方差的性质可知,若 X与 Y相互独立,则.即当 时, 与 一定不独立.0)()(EyxE 0)()(EyXx这说明 的数值在一定程度上反映了 与 的相互间的联系.YX定义 4.4 )()(Y称为随机变量 X与 Y的协方差.记为),(YCov,即 ),(Xv)()(EXE. (4.12)而 )(YDo称为随机变量 与 的相关系数.记为 XY. 是一个无量纲的量 .即XY)(,Cov(4.13)由协方差的
18、定义知它具有下列性质:1. ),(ov= ),(v, .)(,(XDov2. YXabCYXC, ba是常数.3. ),(),(),( 2121 YXCovovYXCov.下面以定理的形式给出 两条重要的性质.定理 4.3 设随机变量 与 的相关系数为 XY,则(1) XY;(2) 的充要条件是存在常数 ba,使 .1bp其中当 XY时,有 0a;当 1XY时,有 0.证明(略).由定理 4.3(2)知, , 之间以概率 1 存在线性关系. XY是一个可以用来表征 X,Y之间线性关系紧密程度的量.当 XY较大时,通常说 , 之间线性关系程度较好;当X较小时,通常说 , 之间线性关系程度较差.当
19、 0Y时,称 和 不相关. 假设随机变量 X与 Y的相关系数 XY存在.当和 相互独立时,由数学期望的性质知 0),(Cov,从而 0,即 和 不相关.反之,若 X和 不相关, 和 Y不一定独立.上述情况,从“不相关”和“相互独立”的含义来看是明显的,这是因为不相关只是就线性关系来讲的,而相互独立是就一般关系而言的. 例 4.8 设二维随机变量 )( X,的概率密度函数为21 ,1(,)0 xyfxy其 他.试验证 X和 Y不相关,但 X和 Y不是相互独立的.解 先求边缘密度函数 2 21 1, , 1()(,)0, 0,xX xdyxxfxfyd 其 他 其 他;及 2 21 1, , 1(
20、)(,)0, 0,yY ydxyyfyfxyd 其 他 其 他.经计算知, ()()EXY, ()()()0CovXYEXY,从而和 不相关.但由于 ()(,)XYfxyfx,所以 X和 Y不独立.例 4.9 已知随机变量 和 分别服从正态分布 )4,0(),31(22NY,且 X和Y的相关系数 21XY,设 23Z,(1)求 Z的数学期望 )(E和方差 )(D;(2)求 和 的相关系数 XZ;(3)问 X和 是否独立?为什么?解 (1) 31)(2)(312)( YEYEZ; 2,)( XCovDXD )(213)(419 YYXY342 (2) ),(21),(31),(),( YXCov
21、ovYXCovZXv )(231YDDXY0431(3)由于( X, Z) 不一定服从二维正态分布,故由 XZ不能确定 和 Z是否相互独立.例 4.10(二维正态分布)设 ),(Y服从二维正态分布,它的概率密度为 2 2112221 ()()()(,)exp (1)2xxyfxy ( ,1 为 5 个常数,且 01, 2, ,yx,).求 X和 Y的协方差和相关系数.解 由例 3.9 可知, ),(的边缘概率密度为,21)(21)( xexfxXyyfxY,)(2)(.故知 22121 )(,)(, YDXE.而)(XCov dxyfyx, )(12212dxyyxx )()()1(2exp
22、2211 令 112),uyt ,则有 dtuetYXCov tu2/)(222(1),( dteedteue u222212221 )( 2121.于是 XY)(,YDCov.这就是说,二维正态分布随机变量 ,X的概率密度中的参数 就是 X和 Y的相关系数,因而二维正态分布随机变量的分布完全可由 Y,各自的数学期望、方差和它们的相关系数所确定.在第 3 章中我们知道,若 ),(YX服从二维正态分布,那么 X和 相互独立的充要条件为 0.现在我们知道 ,故知对于二维正态分布随机变量 ),(Y来说, X和Y不相关与 X和 Y相互独立是等价的.4.5 其他特征数前面讨论了随机变量的数学期望、方差及
23、协方差这些数字特征,本节再介绍随机变量的矩、变异系数和分位数这 3个重要的特征数.4.5.1 k阶矩定义 4.5 设 X, Y是随机变量, lk,是正整数.若以下的数学期望都存在,则称)(kkE(4.13)为 的 阶原点矩. 称 kkXv)((4.14)为 X的 阶中心矩. 称 )()(lkYEE(4.15)为 和 Y的 lk阶混合中心矩.显然, X的数学期望 )(X就是一阶原点矩,方差 )(XD就是二阶中心矩.协方差),(Cov就是 和 的二阶混合中心矩.例 4.11 设随机变量 ),(2N,则 4321,0,0.证明略. 4.5.2 变异系数方差(或标准差)反映了随机变量取值的波动程度,但
24、在比较两个随机变量的波动大小时,如果仅看方差(或标准偏差)的大小有时会产生不合理的现象.这有两个原因:(1)随机变量的取值有量纲,不同的量纲的随机变量用其方差(或标准偏差)去比较它们的波动不太合理.(2)在取值的量纲相同的情况下,取值的大小有一个相对性问题,取值较大的随机变量的方差(或标准偏差)也允许大一些.所以要比较 2 个随机变量的波动大小时,有时使用以下定义的变异系数来比较,更具可比性. 设随机变量 X的二阶矩存在,则称比值 )()(EDCv(4.16)为 X的变异系数.因为变异系数是以其数学期望为单位去度量随机变量取值波动程度的特征,标准差的量纲与数学期望的量纲是一致的,所以变异系数是
25、一个无量纲的量.例 4.12 用 表示某种同龄树的高度,其量纲是米( m) ,用 Y表示某年龄段人的身高,其量纲也是米( m).设 10)(XE, )(D, 1)(E, ,你是否可以09.)(D认为从 1)(XD和 就认为 Y的波动小?这就有一个取值相对大小的问题.在9)(Y此用变异系数进行比较是恰当的.因为 X的变异系数为 1.0)(XECv,而 Y的变异系数为 , 这说明 Y的波动比 波动大.3.019.)(YECv4.5.3 分位数 定义 4.6 设随机变量 X的分布函数为 )(F,密度函数为 .对任)(xp意的 )1,0(p,称满足条件pdxfxFXPpxp )()()( (4.17)
26、的 px为此分布的 分位数(或分位点) ,又称下侧 分位数.分位数 p是把密度函数下的面积分为两块,左侧面积恰好为 (见图 4-1(a) ).图 4-1 分位数与上侧分位数的区别同理, 我们称满足条件pdxfxFxXPx pxpp )()(1)(1)( (4.18)的 px为此分布的上侧 分位数.上侧分位数 px把密度函数下的面积分为两块,但右侧面积恰好为 (见图 4-1(b) ).下侧分位数和上侧分位数是可以相互转换的,其转换公式为px1; px1. (4.19)例如,标准正态分布 的 分位数记为 ,它是方程),0(Nuup的唯一解,其解为 ,其中 是标准正态分布函数的反函数. 我们利用标)
27、(1)(1准正态分布函数表,可由 查得 ,譬如 .p965.0u分位数在统计中经常被使用,特别对统计中常用的三大分布: 2分布、 t分布和 F分布,都特别编制了它们的分位数表.以后分别以 )(2n, )(t, ),(mnF记这些分布的 分位数.4.5.4 偏度系数 定义 4.7 设随机变量 X的三阶矩存在,则称比值(4.20)2/3/21)(E为随机变量 X分布的偏度系数,简称偏度. 偏度系数可以描述分布的形状特征,其取值的正负反映的是当 时,分布为正偏或右偏,见图 4-2(a) ;01当 时,分布关于其均值 对称,见图 4-2(b) ;)(XE当 时,分布为负偏或左偏,见图 4-2(c).1图 4-2 三种不同偏度的分布譬如,正态分布 是关于均值 对称的,所以正态分布 的),(2N)(XE),(2N偏度 .014.5.5 峰度系数 定义 4.8 设随机变量 的四阶矩存在,则称比值(4.21)3)(24242 XE为随机变量 X分布的峰度系数,简称峰度. 峰度系数也是用于描述分布的形状特征,但峰度系数与偏度系数的差别是:偏度系数刻画的是分布的对称性,而峰度系数刻画的是分布的峰峭性. 峰度系数把正态分布的峰峭性作为标准,因为正态分布 的四阶中心矩为),(2N,所以其峰度系数为43.03424即任一正态分布的峰度系数 .