1、青岛大学学士学位论文随机变量的数字特征(期望、方差、协方差)及其应用学院:数学与统计学院姓 名:宋王专业:信息与计算科学学 号: 201341702053指导教师:宋丽娜职 称:副教授青岛大学学士学位论文随机变量的数字特征(期望、方差、协方差)及其应用摘要:伴随着人类思想的进步与发展,实际问题的概率化思想已经深刻的融入在 了生活的方方面面。然而,在很多事件发生的可能性的层面上来说,其结果往往 会呈现出不确定性,在很多次重复试验中其结果又具有统计规律性的现象,我们 将其称为随机现象。把每件事情的发生与否抽象成随机变量,于是在某些实际问 题或者理论问题中人们感兴趣于某些能描述随机变量某一种特征的常
2、数,这种由 随机变量的分布所确定的,能够描述随机变量某一方面的特征的常数统称为数字 特征,它在理论和实际应用中都很重要。本文对随机变量的几个重要的数字特征(包含数学期望、方差、协方差)进行了相应的研究。在探究求每个不同的数字 特征所各自代表的实际意义时,通过对其定义、产生背景、实际意义等方面进行 逐一分析之后,配备了相应例题进行讲解分析,达到与生活实际融会贯通的目的。 最后,通过对数字特征的数学分析,可以浅谈它们各自在实际生活中的应用,已 达到学以致用的目的。关键词:随机变量;数字特征;期望;方差;协方差与相关系数2Digital Characteristics (Expected, Vari
3、ance, Covariance) ofRandom Variables and Their ApplicationsAbstract: With the progress and development of human thought, the probabilistic thought of practical problems has been deeply integrated into all aspects of life. However, at the level of the likelihood of occurrence of many events, the resu
4、lts tend to show uncertainty, and in many times the results of repeated trials have statistical regularity, which we call random phenomena. The occurrence of each thing is abstracted as a random variable, so in some practical problems or theoretical problems in the people interested in some of the c
5、haracteristics of a random variable can describe a constant, which is determined by the distribution of random variables , Constants that describe the characteristics of a particular aspect of a random variable are collectively referred to as a digital feature, which is important both in theory and
6、in practical applications. In this paper, several important digital features (including mathematical expectation, variance, covariance) of random variables are studied. In the study of the actual meaning of each of the different digital features, through its definition, background, practical signifi
7、cance and other aspects of the analysis, with the corresponding examples to explain the analysis, to achieve the purpose of integration with the actual life. Finally, through the mathematical analysis of digital features, you can talk about their respective applications in real life, has reached the
8、 purpose of learning to use.Key words: Random variables; digital characteristics; expectation; variance; covariance and correlation coefficient青岛大学学士学位论文目录摘 要I关键词I英文摘要II英文关键词II1弓I 言12数学期望22.1 数学期望的引入及定义22.2 研究数学期望的重要性32.3 数学期望的应用问题42.3.1 数学期望在经济学中的应用 .42.3.2 数学期望在体育比赛中的应用 .53方差 73.1 方差的引入与定义.73.2 研究
9、方差的重要性 .83.3 方差的应用问题.94协方差及相关系数 .104.1 协方差 104.2 相关系数 124.3 协方差与相关系数的应用13总结 .16参考文献 .17致谢 .18青岛大学学士学位论文随着人类社会的进步、科学技术与经济的发展,实际问题的概率研究已经与 人们的生活不可分割,已经成为人们生活中不可或缺的一部分。随机变量数字特 征是概率论中重要的内容,在概率论与数理统计中有着广泛的应用。“避其锋芒” “投其所好”的思想,无论是在金融理财还是在理论科学研究中都得到了更广泛 的应用,从而可以看出,实际问题的概率分析在很长时间以前就得到了人们的关 注,只不过在现在的生活中应用得更加的
10、广泛与全面。在数学中,我们习惯将实际问题抽象为我们习惯的数学语言,随机现象的发生需要用随机变量来描述。随机变量的不同取值随实际试验的结果而定, 而试验 的结果出现有一定的概率,因而随机变量的取值也就有一定的概率。不但如此, 随机变量在不同条件下由于偶然因素的影响, 具可能取各种不一样的值,其具有 不确定性和随机性。随机变量分类有离散型随机变量和连续型随机变量。 用来刻 画随机变量在某一方面的特征的常数就统称为数字特征。而在本文当中,通过研究随机变量最重要也是平时用的最多的数字特征(数学期望、方差、协方差)的性质,总结出每个不同的数字特征所代表着的实际意 义,加深理解数字特征对于解决实际问题的重
11、要意义。 最后,通过分析不同案例, 总结出各个不同的数字特征在实际生活中的应用,达到在解决问题时的“游刃有 余”,做到“知己知彼,百战百殆”。-18 -2数学期望2.1数学期望的引入及定义我们首先来看一个例子中国体彩新推出一种福利彩票,每张彩票都对应一个兑奖号码,每卖出50万张彩票设一个开奖组,一张彩票的获奖金额概率如下获奖金额的分布金额(元)01050500500050000500000P 0.90.090.009 0.00090.00009 0.0000090.0000009问:每张彩票售价多少时可以确保体彩中心不会亏损?分析:要保证体彩中心不会亏损的话,每张彩票的价格不能低于每张彩票平均
12、获 n得的金额,也就是说每张彩票的价格不能低于E(X)= Z xk pk =3.2 。数学期望k 1求解最重要的就要是先求出随机变量的分布列,所以此例中要求出购买多少次才首次中奖,则需先求出首次中奖时购买次数的分布列,如下表次数 123 k P 0.10.090.0810.1*0.9k-1于是可以引出这种离散型随机变量的数学特征的概念定义1:设离散随机变量X的分布列为p(Xi)=P(X=Xi), i=1,2,n,.如若Z |为 p(xj,i 1则称Q0E(X 尸 XiP Xi )i 1为随机变量X的数学期望,或者可以称之为该分布的数学期望,简称为期望或qQ均值.假如级数Z Xkl p(Xk)不
13、收敛,则称X的数学期望不存在。 k 1在以上的定义中,要求级数绝对收敛的目的是为了使数学期望唯一。 这是因 为随机变量的取值可正可负,取值的次序也可前可后。我们可以从无穷级数的理论知道,如果此无穷级数绝对收敛,则可保证它的和不受次序变动的影响。 因为 有限项的和不受次序变动的影响,所以取有限个可能值的随机变量的数学期望总是存在的以上的定义是针对离散型随机变量的数学期望,而连续型随机变量的数学期望的定义完全类似于离散型随机变量场合,只是把分布列p(Xi)改为密度函数,把求和改为求积就可以了。我们下面给出连续型随机变量的数学期望的定义Jxp(x)dxa0,定义2:设连续型随机变量X的密度函数为p(
14、x).假若贝U称 E(X) = xp(x)dx为X的数学期望,或称为该分布列 P (x)的数学期望,简称期望或均值。若 xp(x)dx不收敛,则称x的数学期望不存在。 -Q02.2 研究数学期望的必要性下面我们通过一个非常著名的案例分析一下研究数学期望的必要性分赌本问题在17世纪中叶,一位赌徒向法国数学家帕斯卡(pascaD提出了一个使他想 了很长时间的分赌本问题:甲、乙两位赌徒的赌技不分上下,各自赌注了50法郎,每局中没有平局,必有一胜一负。他们事先约定好,谁先赢到三局者赢得全 部赌本100法郎。现在当甲赌徒赢了两局,乙赌徒赢了一局时,由于突发事件(国 王要召见赌徒)要终止赌局。现在问:10
15、0法郎如何分才算公平?这个问题提出来是引起来了很多数学家的兴趣。首先大家可以想到:要是均分的话肯定是对甲赌徒是不公平的, 但如果要全部都分给甲赌徒,又对乙赌徒不 太公平。所以大家想到一个比较合理的办法是, 按照一定的比例,甲赌徒可以多 分一些,乙赌徒可以少分一些。所以问题的关键在于:按照何种比例来分的话才 能保证最大限度的公平?考虑到公平性,假若能够继续比下去,最多的话,再有两局必结束。设 A 为甲获得的赌本,后面两局可能出现的情况可能就是(甲和甲) (甲和乙)(乙和 甲)(乙和乙),则我们可以列出A的分布列如下A0100P0.250.75根据离散型随机变量的数学期望的定义,我们可以求出随机变
16、量A的数学期望E(A)=0*0.25+100*0.75=75.这就是说甲赌徒“期望”所得为75法郎,乙赌徒”期 望”所得为25法郎。像这种分法,在考虑的过程中既考虑了已经结束了的赌局, 又照顾到了可能继续赌局的可能性,体现出来一种“期望”的数学思想,于是数 学期望这个定义被提了出来。数学期望又称期望或均值,是随机变量按概率的加权平均,表达了其概率分 布的中心位置所在。数学期望是概率论早期发展中就已产生的一个概念。当时研究的概率问题大多与赌博有关。假如某人在一局赌博中面临如下的情况:在总共 a+b种等可能出现的结果中,有a种结果可赢得a,其余b种结果可赢B ),则这 就是他在这局赌博中所能“期望
17、”的收入。数学期望的这种初始形式早在1657年即由荷兰数学家C.惠更斯明确提出。它是简单算术平均的一种推广。从上面这个经典的案例我们可以可以感觉到,随着经济不断的发展,人类对 于物质财富的分配更加注重,在分配的过程中,我们又可以感觉到,我们似乎可 以找寻一种规律,通过研究这种规律,我们能在物质财产分配前做出对于结果更 好的预测。期望这个概念就是在最初的分赌本问题中被提出来,也是随着人类社会的发展,各种问题的深入复杂化,也就产生了随机变量其它各个数字特征的概 念,人们通过研究它们的性质,预测即将要发生的结果,概率学也就会在人类社 会中起到十分重要的作用。我们下面研究一下数学期望这个数字特征在现实
18、生活 中的应用。2.3 数学期望的应用问题2.4 3. 1数学期望在经济学中的应用通过以上我们对数学期望的概念分析,我们可以感觉到无论是从计划还是从 决策层面上数学期望都起着非常大的作用,所以在一些最基础的经济学问题上, 我们往往会不自觉的利用它。我们来分析几个案例一:决策方案决策方案就是就是将数学期望最大的方案作为最优的方案来加以决策。数学期望为经济决策提供了良好的工具。经济决策类型按其影响范围可大致上分为宏 观经济决策和微观经济决策。宏观经济决策主要是指是在宏观层面上比如说国民 经济的最高层次的决策。而微观经济决策就是指对局部性的某些具体问题的决 策,消费者可以根据自己的有限收入决定其对各
19、种产品的需求量。知识来源与生活,只有能解决实际问题,人类才会能动的利用知识去解决实际问题, 对于数学 期望这一数字特征来说,其最大的价值就是通过研究事物发展的规律,进而得出 科学,准确的结果,所以说,研究它对于经济生活是具有十分重要的意义的。风险规避如果有这么一个公司,它预测自己的市场需求将会增长,而就目前来看的话, 其公司员工都在每天超负荷的工作。 于是公司为了满足市场需求,公司考虑是否 让员工每天加班或者是添加设备的方式来提高产量,假设公司预测市场需求量增 加的概率为p,同时就会有1-p的可能市场需求会下降。已知的数据可见下表:市场需求减少(1p)市场需求增加(p)维持现状(Ai)40万4
20、4万员工加班(A2)39万52万添加设备(A3)35万54万有已知条件可以判断,在市场需求增加的情况下,使员工加班或添加设备都 是对公司盈利是有利的,但是现实情况是不知道哪种情况会出现, 因此我们可以 比较几种方案获利的期望大小,然后用期望值判断,于是就有:E(Ai)=40(1 p)+ 44P.E(A2)=39(1 p)+52pE(A3)=35(1 p)+54p.实际上,假如p=0.7,则 E(Ai)=42.8(万元)E(A2)=48.1(万元)E(A3)=48.3(万元)从结果我们可以得知,公司要想得到效益最大化,就得添加设备,扩大生产。假如p=0.5则 E(Ai)=44(万元)E(A2)=
21、45.5 (万元)E(A3)=44.5 (万元)此时公司要想达到效益最大化,可决定增加员工的工作时间。由以上结果我们可分析得到,只要市场需求的增长可能性在50%之上,公司就必须采取一定的措施,以达到利润的增长。2. 3. 2数学期望在体育比赛中的应用我们都知道,体育比赛的结果往往会被很多因素决定。除了运动员自身身体素质的缘故,还有会很多其他外界因素可能会对比赛结果造成影响。譬如说比赛场地,天气原因,现场观众的干扰等等等等因素。而这些因素统称为外界因素, 每场比赛运动员可能都会遇到一些或多或少的外界因素的干扰,这也是不可避免的,这就对运动员的发挥造成一些影响。所以在一些大型体育比赛开赛前, 教练
22、员会在真实水平差不多的运动员之间选择发挥更稳定的那个去参加比赛,而这里所说的稳定,就是相对的在求运动员水平的期望。例:A和B是两名真实水平都差不太多的射击运动员, 但要去参加奥运会只有一 个名额,教练员为了取得更好的成绩,只能派出那个相对来说实力最强的运动员, 于是他安排两位运动员在同样的条件下进行了一组射击,射击的结果如下表所 示,问:A和B哪位运动员实力更强一些?A运动员的成绩表A789P0.20.20.6B运动员的成绩表B789P0.10.70.3我们可以根据上表分别求出 A和B两个运动员的射击均值(数学期望)他们水平的差别解:E(A)=70.2+8 0.2+9 0.6=8.4(环)E(
23、B尸 70.1+8 0.7+9 0.3=9(环)计算结果我们可以看出,E (B) E (A)所以要单纯从实力强弱的角度上分析运动员水平的话,就可以选B运动员去参加奥运会。B运动员的数学期望高于 A运动员的数学期望,代表着在相同的比 赛条件下(可假设为外界对于运动员影响都一样)B运动员实力要强于A运动员,可以派B运动员去参加比赛其把握更大一些。从以上例子我们可以看出在数学期望对于体育比赛的影响。我们都知道,概率论与数理统计是从数量上研究随机现象统计规律性的一门 学科。且随机变量的分布函数比较能较全面的表现出随机变量的统计规律性。但是在现实很多的经济现象中,要求随机变量的分布函数并不是一件容易的事
24、情, 所以只要能知道能反映随机变量的一些重要数字特征就可以。而且另一方面来 说,有一些常用的分布,譬如正态分布,泊松分布等等,这些分布只依赖几个参 数。所以研究随机变量的数字特征在理论上和实际中都有很重要的意义。数学期望这一数字特征是随机变量的重要的数字特征之一,它也在实际生活中很多地方 都扮演着十分重要的作用,本文也仅仅只是在经济决策和体育比赛中的一些简单 例子来粗浅的阐明一些数学期望的实际应用,以传达数学期望在实际生活中的现实意义及其重要性。下面我们来研究随机变量的另一个重要的数字特征方3方差通过以上对数学期望的简要分析,我们可以了解到随机变量 X的数学期望 E(X)是分布的一种位置特征数
25、,它刻画了 X的取值总是在E(X)周围波动。但这 个位置特征数无法反映出随机变量取值的“波动”大小,比如 X与Y的分布列 分别为11/3-10101/31/31/33.1 方差的引入与定义从以上X和Y的分布列我们可以得知,尽管它们的数学期望都是0,但显然Y取值的波动要比X取值的波动要大。能否用一个数值来反映出随机变量的“波 动”大小,这里数学期望显然是不能反映出这种性质的。如何要用一个数字或者 一个数学概念来表示出随机变量 “波动”的大小,自然而然的就出现了方差这个 非常重要的特征数。定义:假设随机变量X的数学期望为b=E(X),但是X的取值并不一定正好 是b,会或多或少的有偏差,偏离的量 X
26、 b有正有负,为了不让正负偏差彼此 抵消,我们考虑(X-b) 2,不考虑数学上难以处理的绝对值|X-b.由于(X-b) 2 仍然是一个随机变量,所以可以取其数学期望E (X-b) 2就可以刻画X的“波动” 程度,则这个量被称为 X的方差,定义为假若随机变量 犬的数学期望存在,则 称偏差平方(X-EX) 2的数学期望E (X-EX) 2为随机变量(或相应分布)的方差, 记做 Var(X)=E(X-E(X) 2=(x - E(X)2 p(xi)这是在离散场合时的方差定义,在连续场合方差的定义为+ 二Var(X)=E(X-E(X) 2=(x E(X)2p(x)dx-c:3.2 研究方差的重要性我们给
27、出一个简单的例子来分析一下研究方差的重要性。例如有一批零件,可以得知其使用寿命是 E (X) =900 (小时)。仅仅有这一个 指标我们是不能判定这批零件的质量好坏的。实际上,在这批零件中,有可能绝 大部分零件的寿命都在850950小时之间,也有可能在这批零件中可能有将近一 半是高质量的,其使用寿命可能有 1000小时,另一半可能是质量很差的,它的 寿命可能仅为800小时。现在为了评定这批零件的使用寿命,还需要进一步分析 零件寿命X与其数学期望E(X)=900(小时)的偏离程度。假若分析结果其偏离程 度较小,表示质量比较稳定。从这个层面上考虑的话,我们就认为这批零件的质 量较好。但是,怎么要用
28、一个量去度量这个偏离程度呢?显然,我们前面所分析过的用数学期望的思想去分析就不是很好用了,所以得用到方差这个数字特征来去衡量这个偏离程度。通常用量E(X - E(X)2)表示零件寿命X的方差,这个特征值就可以反映偏离程度。假若此数值越大,则表明偏离程度越大,反之,则说 明偏离程度越小。在讨论数学期望在体育比赛中的应用问题时,曾经引入过一个挑选运动员去参加奥运会的的实例。当时仅仅是在两个运动员实力差不太多的情况下按照实力 微弱差距去挑选实力更强的那个运动员,那我们可以试想一下,假如教练员不去 考虑两个运动之间微弱的实力差距,而更加注重的是运动员临场的发挥,对于环境的适应能力,尤其是在射击这种对于
29、运动员心里素质要求极高的运动中,更要去考虑运动员发挥的稳定性,这时,数学期望这个数字特征就体现不出这种“稳 定性”,而方差就可以。Var(A)=E(A-E(A) 2=Z (aE(A)2 p(A)=1E(A)2 P(A)+i(a2E(A)2 PA)+ - E(A)2 P(A3)=(7-8.4) 2 0.2+(8-8.4)2 0.2+(9-8.4)2 0.6=0.392+0.032+0.216=0.64Var(B尸E(B-E(B) 2= (bE(B)2 p(B)2i22=(b -E(B)2 P(B1)+(b2 -E(B)2 P(B2) + (b3-E(B)2 P(&)=(7-9)2 0.1+(8-
30、9)2 0.7+(9-9) 2 0.3=0.4+0.7+0=1.1由计算结果我们看出,Var(A)0时,这时称X和Y正相关,这时两个偏差 (X -E(X)和(Y -E(Y)有同步增加或同步减少的倾向。由于E(X)和E(Y)都是常数,所以也可 以等价于X与Y有同步增加和同步减少的倾向,这就是正相关的含义。当Cov(X,Y) 0时,称X和Y负相关,这个时候有X增加而Y减少的倾向, 或者有Y增加而X减少的倾向,这就是负相关的定义。当Cov(X,Y)=0时,称X与Y不相关。这时可能是有两类情况导致:一种 情况是X和Y的取值毫无关联,另一种情况是 X与Y之间存有某种非线性的关 系。给出几个在协方差计算中
31、很重要的几个性质:性质 1: Cov(X,Y) = E(XY) E(X)E(Y).性质2:若随机变量X和Y相互独立,则Cov(X,Y) =0,反之不然。性质 3 :对任意的二维随机变量 (X,Y ),有Var(X -Y) =Var(X) Var(Y) _2Cov(X,Y).性质4:协方差Cov(X,Y)的计算与X,Y的次序无关,也就是说Cov(X,Y) =Cov(Y,X)性质5:任何随机变量X和常数a的协方差为零,也就是说Cov(X,a) =0.性质 6:对任何常数 a,b,有 Cov(aX,bY) =abCov(X ,Y).性质 7 :假设 X,Y,Z是任意三个随机变量,则 Cov(X Y,
32、Z) -Cov(X,Z) Cov(Y,Z).从一个简单的例子来应用一下协方差的性质。例:设二维随机变量(X, Y)的联合密度函数为工3x,0 :: y : x : 1P(x,y0,其它试求 Cov(X,Y).解:利用协方差的计算公式,我们要先计算E(X),E(Y),E(XY)的值,它们可 直接用p(x, y)导出,但要注意积分限的确定,具体如下:i xi3E(X) = 0 x 3xdydx = 03x3dx =-E(Y) = 00y 3xdydx = 03x3dx =- 28i x13x43E(XY) = .0 0xy 3xdydx = o-2-dx = 10.因此我们可以算得33 33-Co
33、VXY= 一 一 - =-0.1 04 81 6 0最后我们得到结论:X与Y不相互独立。4.2 相关系数通过以上分析,我们知道协方差 Cov(X,Y)是有量纲的量,譬如X是作用在 物体上的力,单位是牛顿(N), Y表示物体在这个力作用下移动的距离,单位是 米(m),那么Cov(X,Y)带有量纲(N m).为了消除量纲的影响,现在对协方差除以相同量纲的量,就得到了一个新的定义一一相关系数,它的具体定义如下。定义2:设(X,Y)是一个二维随机变量,且Var(X)=。;0,Var(Y)=仃; 0.则称Corr (X Y 尸Cov(X Y_)_ _ Var(X) JVarY)Cov X Y,%*与丫的
34、(线性)相关系从以上定义可看出:相关系数Corr(X,Y)与协方差Cov(X,Y)是同符号的,即 同时为正,或同时为负,或同时为零。这说明,从相关系数的取值也可以反映出X与Y的正相关,负相关和不相关。同协方差一样,它也有自己的性质。性质 1: -1 ECorr(X,Y) E1,或 Corr(X,Y) 0;当 Corr (X ,Y) = 1 时,有 a0;对于性质2,有下面几点说明:1):相关系数Corr(X,Y)描述了随机变量X和随机变量Y之间的线性关 系的强弱,因此相关系数又有一个名字“线性相关系数”。2): CXY ( , ) 0=,则称随机变量X与随机变量Y之间没有线性关系,但 这不一定
35、意味着它们之间没有其它的函数关系,比如说立方关系,指数关系等等。3):假如Corr X Y= 1这时就说X和Y之间完全正相关;假若Corr (X,Y) =-1,这时就说随机变量X和随机变量Y之间完全负相关4):假如0 |Corr(X,Y) 1,这时就称随机变量X和随机变量Y之间有定程度”的线性关系。如果|Corr(X,Y)越接近于1,则表明线性相关程度越高;反过来,如果Corr(X,Y)越接近于0,则表明线性相关程度越低。比较协方差的 性质,假如协方差很小的话,它的两个标准差 仃x和。y也就随之很小,但它们的 比值不一定很小,这一点,可以看出协方差与相关系数之间的不同。通过以上对于协方差和相关
36、系数的概念分析和性质分析,我们可以知道,协 方差描述的是随机变量 X和随机变量Y之间相互关系,而相关系数则进一步的 表现了随机变量X和随机变量Y之间的线性相关的关系。这两个数字特征,虽 然相似,但也有其性质方面的差别,在实际应用中,我们也要去要分析问题的侧 重点,但有一点,协方差与相关系数在实际生活中有着极其广泛的应用,接下来我们简单的去研究一下它们在实际中的应用。4.3 协方差及相关系数的应用我们来看一个例子。在一次化学分析试验中,通过将不同药品(可以看做一个集合)在相同环境 中的实验,得到了很多结果。我们将药品集中的各个自身属性字段看做随机变量Xi,(i =1,2, -n),将不同药品之间
37、的类标号属性看做随机变量Y。各药品自身属性的属性值的分布情况即可看做各随机变量的取值分布,则任一随机变量Xi的所有可能取值的情况为xj,(j=1,2,m)Xi取值的可能性PXi =Xj= pj, (j =1,2m)就称作是随机变量Xi的概率分布。这样的话,整个药品集就成为了很多个 随机变量的组合,每个随机变量的取值按照一定的概率分布。 于是,可以衡量一 下药品的每个自身属性和类标号属性之间的相关程度。可以设m,s分别是随机变 量Xi和Y中的取值个数,然后再分别计算随机变量Xi,(i=1,2,n)同随机变量Y 的协方差:m nCov(Xi,Y)= lx -E(Xi)yk-E(Y)pjk(一)j
38、4 k其中pjk(j =1,2,,m;k=1,2,,s)是(Xi,Y)的联合分布率,那么随机变量 Xi和Y的方差就为:m2D(X)=x- E: M) p(二)j 1其中pXi =Xj= pj, j =1,2,m是Xi的分布率。D(Y)- M - EY M其中pY = yk = Pk,k=1,2,s是Y的分布率。那么随机变量Xi和Y的相关系数为:(四)- Cov(Xi,Y)- XY -i .D(Xi)D(Y)如果考虑以随机变量X的线性函数a+bX来近似表示随机变量Y,以均方差e = E (Y-(a+bX)2=E(Y2)+2bE(X2)+a2 -2bE(XY) +2abE(X) -2aE(Y)(五
39、)来衡量以a +bX近似表达Y的好坏程度。e的值越小表示 a + bX和Y的近似程度越好。取a,b使彳3e到最小,可以将e分别关于a,b求偏导,并令他们为零,可 以算得:生=2a +2b E( X) 2E (X ) 0(六)-a.e 一 2= 2bE(X ) 2E(XY)+2aE(X) = 0(七)b联立(六)、(七)两式子,可以求得Cov(X Y )b0 -D(X)a。= E(Y)boE(X)/ E(Y)_E(X)Cov(X,Y)D(X)可将a。,b。带入(五)式可算得:min EY(a+bX)f = EY (a0 +b0X)2 = (1 pXy)D(Y)(八)最后,我们由(八)式可以知道,均方误差e是|PXY的单调严格递减函数,这样Pxy的含义就非常明显了,如果|Pxy相对e来说比较大时,说明X, Y联系比 较紧密,说明药品的自身属性和类别属性可能会在某个层面上有很大的关系; 特 别地,当PXY =1时,X和Y之间凭借概率1存在着线性关系。以上这个例子是在科学研究中提取出的一个实例。我们可以感觉到,看似毫不相关的两个