1、1计量经济学数学基础数学基础 (Mathematics)第一节 矩阵(Matrix)及其二次型 (Quadratic Forms)第二节 分布函数(Distribution Function),数学期望(Expectation)及方差(Variance)第三节 数理统计(Mathematical Statistics)第一节 矩阵及其二次型(Matrix and its Quadratic Forms)1.1 矩阵的基本概念与运算一个 mn 矩阵可表示为: vaaAmnmnij 212211矩阵的加法较为简单,若 C=A+B,c ij=aij+bij但矩阵的乘法的定义比较特殊,若 A 是一个
2、mn1 的矩阵,B 是一个 n1n 的矩阵,则 C=AB 是一个 mn 的矩阵,而且 ,一般来讲,ABBA,但如下运算是成nkjiijc1立的: 结合律(Associative Law) (AB)C=A(BC) 分配律(Distributive Law ) A(B+C)=AB+AC问题:(A+B) 2=A2+2AB+B2是否成立?向量(Vector )是一个有序的数组,既可以按行,也可以按列排列。 行向量(row vector)是只有一行的向量,列向量(column vector)只有一列的向量。如果 是一个标量,则 A=aij。矩阵 的转置矩阵(transpose matrix)记为 ,是通
3、过把 的行向量变成相应的列向AA量而得到。显然( )= ,而且( + )= + , B 乘积的转置(Transpose of production ) , 。AB)( ABC)( 可逆矩阵(inverse matrix) ,如果 n 级方阵(square matrix)A 和 B,满足2AB=BA=I。则称 A、B 是可逆矩阵,显然 , 。如下结果是成立1BA1的:。11111 )()()( A1.2 特殊矩阵1)恒等矩阵(identity matrix)对角线上元素全为 1,其余全为 0,可记为 I;2)标量矩阵(scalar matrix)即形如 I 的矩阵,其中 是标量;3)幂等矩阵(i
4、dempotent matrix)如果矩阵 具有性质 ,这样的矩阵称为幂等矩阵。AA2定理:幂等矩阵的特征根要么是 1,要么是零。4)正定矩阵(positive definite)和负定矩阵(negative definite) ,非负定矩阵(nonnegative ) 或 半正定矩阵(positive semi-definite ) ,非正定矩阵(nonpositive definite) 或 半负定矩阵( negative semi-definite) ;对于任意的非零向量 ,如有 0(0) ,则称 A 是正(负)定矩阵;如有xxA0(0) ,非负(非正)定矩阵。如果 A 是非负定的,则记
5、为 A0;如果是正定的,xA则记为 A0。协方差矩阵 是半正定矩阵,几个结论:a)恒等矩阵或单位矩阵是正定的;b)如果 是正定的,则 也是正定的;1Ac)如果 是正定的, 是可逆矩阵,则 是正定的;BABd)如果 是一个 nm 矩阵,且 nm, ,则 是正定的, 是非负定Ar)(A矩阵。5)对称矩阵(symmetric matrix) ;如果 = ,则 称为对称矩阵。1.3 矩阵的迹(trace)一个 nn 矩阵的迹被定义为它的对角线上的元素之和,记为 ,则 ,)(Atrniiatr1)(如下结论是显然的。31) ( 是标量) 特例)()(Atrtr nItr)(2) 3) )()(Btrtt
6、r4) ,特例(AtBt21ijnjiat)循环排列原则 tr(ABCD)=tr(BCDA)=tr(CDAB)=tr(DABC)定理:实对称矩阵 A 的迹等于它的特征根之和。因为 A 是实对称矩阵,故有在矩阵 C,使得 ,其中 ,所nA1IC以, 。 ni trItAtrCtrt1 )()()()1.4 矩阵的秩(rank)一个矩阵 A 的行秩和列秩一定相等,一个矩阵的秩就可以定义为它的行秩或列秩,记为 r(A),不加证明,我们给出如下结果:1) (行数、列数))(rmin2) ,其中 A、B 分别为 mn1、n 1n 矩1BA)(Ari)(,r阵,特例:如果 A、B 为 nn 矩阵,而且 A
7、B=0,则 )(r3) ,其中 是 nn 的方阵)()()rr4) 5)设 是 nn 矩阵,且 ,则AIA2 nIArIr)()(6)设 是 nn 矩阵,且 ,则1.5 统计量的矩阵表示向量可理解为特殊的矩阵。 是一个其元素都为 1 的 n 维列向量,即i=(1 ,1, ,1) ,如果我们再假定 ,计量经济模型中的许多统计量i ),(21xx4就可以用矩阵的形式表示出来,很方便进行数学推导。显而易见, , ,样本的均值与方差的矩阵表示如下:nix1nix121)样本均值矩阵表示;事实上 即 ,而 , ;ni1i1 i xinxi12)样本方差矩阵表示易知: 。其中矩阵 是一个每个元素都为 的
8、阶方阵,xinixi1in n1从而 。xMxinIxinxixn 021 )1()1()( 矩阵 的对角线上的元素为 ,非对角线的元素为 ,是一个对称矩阵。0M)( n1故样本方差: )(1122 xnxnSii 。xMnM02001定理:矩阵 是幂等矩阵。01.6 矩阵的二次型与多元正态分布1)矩阵的二次型(Quadratic Forms)和线性变换(linear transferring )设 P 是一数域,一个系数在数域 P 中的 的二次齐次多项式nx,21n axaxf 12121),( n2(1)2nxa称为数域 P 上的一个 n 元二次型,或者,在不致引起混淆时简称二次型。例如5
9、23231214xxx就是有理数域上的一个三元二次型,为了以后讨论上的方便,在(1)中, ixj(的系数写在 。而不简单地写成 。)jijaija和在几何中一样,在处理许多其它问题时也常常希望通过变量的线性替换简化有关的二次型,为此,我们引入定义 1 设 ; 是两组文字,系数在数域 P 中的一级关系式nx,1 ny,1(2)nnn ycycx 21222称为由 , 到 的一个线性替换,或简称线性替换,如果系数行列式x, ,1 0ijc那么线性替换(2)就称为非退化的。在讨论二次型时,矩阵是一个有力的工具,因此我们先把二次型与线性替换用矩阵来表示。令, ijjiaij由于 ijjix所以二次型(
10、1)可以写成 nn xaaxf 1212121),( x22221nnnxaa(3)ijjix1把(3)的系数排成一个 nn 矩阵6(4)nnnaaA 212112它就称为二次型(3)的矩阵,因为 , , 所以jiij ,1njA我们把这样的矩阵称为对称矩阵,因此,二次型的矩阵都是对称的。令 nxX21于是,二次型可以用矩阵的乘积表示出来, AX nnnn xaax 21211221),( nnn xaxax 2122121),(nijjix1故 AXxfn),(21应该看到,二次型(1)的矩阵 的元素 正是它的 项的系数的一半,因此jiijajix二次型和它的矩阵是相互唯一决定的,由此还能得
11、到,若二次型 BXAxfn),(21且 , ,则 。ABA令 nnnnyYccC 21212112,于是线性替换(2)可以写成7nnnn yccx 21211221或者 CYX我们知道,经过一个非退化的线性替换,二次型还是变成二次型,现在就来看一下,替换后的二次型与原来的二次型之间有什么关系,也就是说,找出替换后的二次的矩阵与原二次型的矩阵之间的关系。设(5)AXxfn,),(21是一个二次型,作非退化线性替换(6)CYX我们得到一个 的二次型ny,21 B现在来看矩阵 B 与 A 的关系。把(6)代入(5) ,有 ACYCYXxfn )(),(21BA(容易看出,矩阵 也是对称的,事实上,
12、ACC)(由此,即得 B这就是前后两个二次型的矩阵的关系,与之相应,我们引入定义 2 数域 P 上 nn 矩阵 A,B 称为合同的,如果有数域 P 上可逆的 nn 矩阵C,使 C合同是矩阵之间的一个关系,不难看出,合同关系具有1)反身性: ;AE82)对称性:由 即得 ;ACB1)(BC3)传递性:由 即得21211和 )()(2因之,经过非退化的线性替换,新二次型的矩阵与原二次型的矩阵是合同的。这样,我们就把二次型的变换通过矩阵表示出来,为以下的探讨提供了有力的工具。最后指出,在变换二次型时,我们总是要求所作的线性替换是非退化的。从几何上看,这一点是自然的,因为坐标变换一定是非退化的,一般地
13、,当线性替换 CYX是非退化时,由上面的关系即得 1这也是一个线性替换,它把所得的二次型还原。这样就使我们从所得二次型的性质可以推知原来二次型的一些性质。定理:若 A 是实对称矩阵,则存在可逆矩阵 C,满足: 。nA12)多元正态分布a)二元正态分布直观上,二元正态分布是两个正态随机变量的联合分布。如果两个随机变量 X1 和 X2的联合密度函数为 122121 exp),( xf这里 , , 0, 0, 1,12, 1 221212 xxx我们称 X1 和 X2 服从二元正态分布。通过计算可得 X1 和 X2 的边际分布分别为和 。上式中的参数 是 X1 和 X2 的相关系数。),(21N),
14、(如果 X1 和 X2 服从二元正态分布,那么在给定 的条件下 X2 的条件分布也是正1x态的。它的条件密度函数为 )(,)(212bNxf9这里 )(112xb条件均值 是 的线性函数。并且,二元正态分布具有一个独特的性质,那就21XEb1x是如果 ,那么 X1 和 X2 是相互独立的。这是由于当 时,我们有 。0 0)(212xff这对于一般的两个随机变量是不对的。有时如果把联合概率密度函数写成矩阵的形式,则从形式上来看就简单多了。记,那么二元正态概率密度函数可以写成如下的简单形式),(21X )()(21exp12/1 xxf这里 21122121, xb)多元正态分布, 这就是均值为
15、协方差矩阵为 )()(21ep)2( 12/1xxg nR的多元正态分布,记为 。,NXc)多元正态分布的二次型的分布如果 ,那么),(NX 2)(1()(nxXY这里 n 是 X 的维数。我们可以简单地证明这个结果。由于 是对称可逆矩阵,那么存在一个可逆的矩阵 A,使得 。我们有 ,I ),0()(),( INXAZINA所以 。2)(1()(nxZY101.7 幂等矩阵与二次型1、幂等矩阵满足 A2=A 的矩阵称为幂等矩阵。幂等矩阵可以是对称的,也可以是非对称的,但在我们计量统计学中,所研究的幂等矩阵都是对称的。与幂等矩阵的有关的结果有:1)幂等矩阵的特征根要么是 1,要么是零。证明:设
16、是 A 的特征根,则 AE= ,同时 =A=A2= ,故 ,从而EE2或 。02)唯一满秩的对称幂等矩阵是单位矩阵。证明:A 2=A0)(I 0)(1IAI即除了单位矩阵外,所有幂等矩阵是奇异的。3)A 是幂等矩阵,则 I A 也是幂等矩阵,且秩(A)+秩(I A)=n。4)对称幂等矩阵的秩等于它的迹。从而我们很容易知道 M0 的秩。因 M0 的每个对角元素都是 ,因此 。n1 )(1)()( 00 Mrntr5) 的服从 分布(如果2nS)(2x ,iINi这是因为: 和 。nii x10221)(0nMr6) X 是一个 nm 的矩阵,秩(X)=mXIM)(则 M 是幂等矩阵。1.8 微分
17、及其矩阵的微分表示1)微分的应用微分的应用在经济学领域中被广泛地用来作近似计算。为了说明这种技巧如何运作,考虑一个例子。设 P 代表 GDP 平减指数,Y 代表实际 GDP,则名义 GDP 为 PY,于是有:(PY)变动的百分比的(P 变动的百分比)+(Y 变动的百分比) ;同样一个比率变动的百分比近似地是分子变动的百分比减去分母变动的百分比。例如:11设 Y 代表 GDP,而 L 代表人口数,则人均 GDP 为 ,则:LY(Y/L)变动的百分比(Y 变动的百分比)(L 变动的百分比)问题 1:1)上述 2 个近似公式在什么条件下成立?2)推导上述两个公式3)宏观经济中,GDP 的确定由 4
18、个组成部分,即: GDP=C+I+G+NX。能否按如下公式计算 GDP 变动百分比:GDP 变动的百分比(消费 C 变动的百分比)+(投资 I 变为的百分比)+(政府购买 G 变动的百分比)+(净出口 NX 变动百分比) 。如果不能,哪边的值较大?为什么?2)计量模型的推导带技术进步 的 Solow 模型假定生产函数为希克斯(Hicks)中性技术进步条件下的产出增长型函数,其一般形式 Solow 模型为:(1)),(KLftAY对 A( t) 作进一步假定,令 ,这里 A0 为基本的技术水平, 表示由于技te0 术进步而使产出增长的部分,称为技术进步增长率。于是(1)式变为:(2)),(0KL
19、fAYt对(2)式两边取对数并求导得到:(3)dtKYdtdt 111由于 Y、L 、K 的实际数据都是离散的,故对(3)进行离散化,并令 年,于是有:1t(4)LY表示产出的劳动力弹性, 表示产出的资本弹性。于是(4)式实际上就是我们的科技进步贡献率的测算模型,注意到: YKY/1这里 表示科技进步对产出增长的贡献率, 表示劳动力增长对产出增长的贡Y/ L献率, 表示资本增长对产出增长的贡献率。从而有:K(5)YKY/1/12(5)式就给出了技术进步贡献率的测算公式。通过假定一定规模报酬不变,即 这一条件,比较合理有效地预防或克服了变1量间可能出现的共线性。由(4)式,根据 ,有:)(LKL
20、Y设 ,则有:KDLY21,(6)21D一般来讲,只要 D1 序列不存在异方差性, (6)式就是测算科技进步增长率 所用的最终模型。3)矩阵的微分如果 或写成 ,那么梯度向量为),(21nxfy)(xfynffxyf21/)(二阶偏导数矩阵为 nnn nxyxyxyxf / /)( 22212 12212122 特别地,如果 ,那么iiaa1ax)()(同样地可得 A如果 A 是对称矩阵,那么 x2一般地,有4)矩阵的分块(partitioned matrix)13在表述一个矩阵的元素时如构造一个方程组将一些元素以子矩阵的形式进行分组有时是有用的,例如,我们可以写 69832541A21A 称
21、为一个分块矩阵,子矩阵的下标和矩阵中的元素的下标按同样方式定义,一个普通的特殊情形是分块对角矩阵。 210A其中 A11 和 A22 都是方阵。分块矩阵的加法和乘法加法和乘法可以推广到分块矩阵,对一致的分块矩阵 A 和 B 有:(1)2211BA和 2121(2)2122112 BABA其中所有矩阵必须适于所用运算,对于加法,A ij 和 Bij 的阶数必须相同;在乘法中,对所有的数对 i 和 j,A ij 的列数必须等于 Bij 的行数,即矩阵相乘所必需的条件都要得到满足。两个经常遇到的情况是如下的形式: 21121AA(3)和 212121 00AAA(4)分块矩阵的行列式14类似于对角矩
22、阵的行列式,分块对角矩阵的行列式可以得到(5)21210AA一个一般的 22 分块矩阵的结果为: 211221A(6)1221A大于 22 分块矩阵的结果极其繁琐,且在我们的工作中也不必要。分块矩阵的逆分块对角矩阵的逆是:(7)1212100AA这可由直接相乘证实。对一般的 22 分块矩阵,分块逆的一个形式是:(8)212 112121 )( FAFIA其中 1212)(这可以最简单地用逆去乘 A 来证实。由于计算的对称性,左上块可以写作: 1211)(AF问题:请推倒上面的公式(5) 、 (6) 、 (7)和(8) 。对均值的偏差上述内容的一个有用的应用是如下的计算:假设我们从一个 n 个元
23、素的列向量 x 开始。且令 2iixnAi我们关心的是 A-1 中的右下角元素,根据(8)中 F2 的定义,这将是151)()(2xiixFinI1xiIx10M所以,逆矩阵中的右下角值是 210)()( axxi现在,假设以含有若干列的矩阵 X 代替只有一列的 x,我们要求Z Z -1 中的右下块,这里 Z=i,X,类似的结果是 12 )()( iXZ10M这暗示着Z Z-1 的右下块, KK 矩阵是第 jk 元素为 的 KK)(kijijxx矩阵的逆,这样,当一个数据矩阵含有一列 1 时,平方和及交叉积矩阵的逆的元素将用原始数据以对其相对应列均值的离差的形式计算得出。第二节 分布函数(Di
24、stribution function)、数学期望(Expectation)与方差(Variance)本节主要介绍概率及其分布函数,数学期望,方差等方面的基础知识。一、概率(Probability)1、概率定义(Definition of Probability)在自然界和人类社会中有着两类不同的现象,一类是决定性现象,其特征是在一定条件必然会发生的现象;另一类是随机现象,其特征是在基本条件不变的情况下,观察到或试验的结果会不同。换句话说,就个别的试验或观察而言,它会时而出现这种结果,时而出现那样结果,呈现出一种偶然情况,这种现象称为随机现象。16随机现象有其偶然性的一面,也有其必然性的一面,
25、这种必然性表现为大量试验中随机事件出现的频率的稳定性,即一个随机事件出现的频率常在某了固定的常数附近变动,这种规律性我们称之为统计规律性。频率的稳定性说明随机事件发生可能性大小是随机事件本身固定的,不随人们意志而改变的一种客观属性,因此可以对它进行度量。对于一个随机事件 A,用一个数 P(A)来表示该事件发生的可能性大小,这个数P(A)就称为随机事件 A 的概率,因此,概率度量了随机事件发生的可能性的大小。对于随机现象,光知道它可能出现什么结果,价值不大,而指出各种结果出现的可能性的大小则具有很大的意义。有了概率的概念,就使我们能对随机现象进行定量研究,由此建立了一个新的数学分支概率论。概率的
26、定义定义在事件域 F 上的一个集合函数 P 称为概率,如果它满足如下三个条件:(i)P(A)0,对一切 FA(ii)P()=1;(iii)若 ,i=1,2,且两两互不相容,则i11)(iii A性质(iii)称为可列可加性(conformable addition)或完全可加性。推论 1:对任何事件 A 有 ;)(1)(AP推论 2:不可能事件的概率为 0,即 ;0推论 3: 。)()()( BPB2、条件概率(Conditional Probability)如果 P( B)0,记 ,称 P(A|B)为在事件 B 发生的条件下事件 A)(/(A发生的条件概率。转化后有: 如果(P(A)0) ,
27、称为概率的乘)/()/()( BPA法原理。推广后的乘法原理: )|()|()/()( 12121312121 nnn AP 17其中 0。)(121nAP3、全概率公式与贝叶斯(Bayes)公式设事件 A1, A2, An是样本空间 的一个分割,即 AiAj=, i j,而且:。1i从而 ,这里 AiB 也两两互不相容。1iB则 。11)|()()(ii iii PP这个公式称为全概率公式。由于 )|()|()( iiii ABPAPB故 )(|)|(iii再利用全概率公式即得 1)|()|(i iiiii ABPBAP这个公式称为贝叶斯公式。贝叶斯公式在概率论和数理统计中有着多方面的应用,
28、假定 A1, A2,是导致试验结果的“原因” , P( Ai)称为先验概率,它反映了各种“原因”发生的可能性大小,一般是以往经验的总结,在这次试验前已经知道,现在若试验产生了事件 B,这个信息将有助于探讨事件发生的“原因” ,条件概率 P( Ai|B)称为后验概率,它反映了试验之后对各种“原因”发生的可能性大小的新知识。4、事件(Random event)独立性(Independence)1)两个事件的独立性定义 对事件 A 及 B,若P( AB) =P( A) P( B)则称它们是统计独立的,简称独立的。18推论 1 若事件独立,且 P( B)0,则P( A|B)= P( A)证明由条件概率
29、定义 )()()(|( APB因此,若事件 A, B 相互独立,由 A 关于 B 的条件概率等于无条件概率 P( A) ,这表示 B的发生对于事件 A 是否发生没有提供任何消息,独立性就是把这种关系从数学上加以严格定义。推论 2 若事件 A 与 B 独立,则下列各对事件也相互独立:证明 由于 )()()( ABPABP(1)(所以 与 B 相互独立,由它立刻推出 与 相互独立,由 又推出 A, 相互独AABB立。2)多个事件的独立性定义 对 n 个事件 A1, A2, An,若对于所有可能的组合 1 i j n 成立着)()()()()(2121 nnkjikji PAP则称 A1, A2,
30、An相互独立。这里第一行有 个式子,第二行有 个式子,等等,因此共应满足2n3n231n个等式。二、随机变量(Random Variable)和概率分布函数(Probability Distribution Function),BA191、随机变量(Random Variable)如果 A 为某个随机事件,则一定可以通过如下示性函数使它与数值发生联系:不 发 生如 果 发 生如 果 AI,0这样试验的结果就能有一个数 来表示,这个数是随着试验的结果的不同而变化,也即它是样本点的一个函数,这种量以后称为随机变量,随机变量可分为离散型随机变量和连续型随机变量。2、概率分布函数(p.d.f=prob
31、ability density function)称 F(x)=P x, x 为随机变量 的分布函数 cdf,对于连续型随机变量,存在可能函数 f(x),使, f(x)称为随机变量的(分布)密度函数(density function) 。xdXf)()(3、随机向量(Random Vector)及其分布在有些随机现象中,每次试验的结果不能只用一个数来描述,而要同时用几个数来描述。试验的结果将是一个向量( 1, 2, n) ,称 n 维随机向量。随机向量的联合分布函数也有离散型与连续型的分别,在离散型场合,概率分布集中在有限或可列个点上,多项分布,就是一个例子;在连续型场合,存在着非负函数f(x
32、1,x2,xn),使 1 11),(,x nnn dyyfF这里的 f(x1, xn)称为密度函数,满足如下两个条件0, 1),(11nndxxf一般地,若(,)是二维随机向量,其分布函数为 F(x,y),我们能由 F(x,y)得出 或 的分布函数,事实上, )(1PxFx,x),(xF同理)(2y),(yFyF1(x)及 F2(y)称为 F(x,y)的边际分布函数(Marginal Distribution Function) 。例 若 F(x,y)是连续型分布函数,有密度函数 f(x,y),那么20xduyfF),()(1因此 F1(x)是连续型分布函数,其密度函数为 ff),(同理 F2
33、(x)是连续型分布函数,其密度函数为 dxyfyf),(f1(x)及 f2(y)的边际分布密度函数。二元正态分布 函数这里 22121221 )()()()1(exp2),( byaxrxrrfa,b, , r 为常数, 0, 0,|r|1,称为二元正态分布密度函数。1,12定理:二元正态分布的边际分布仍为正态分布。条件分布(Conditional Distribution)离散型:若已知 =x i, (p1(x i)0)则事件=y i的条件概率为)(,| 1ijijij xpyPxPyxyP这式子定义了随机变量 关于随机变量 的条件分布。连续型:在给定 = x 的条件下, 的分布密度函数为
34、)(,)|(1xfyyf同理可行在给定 =y 的条件下, 的分布密度函数为 )(,)|(2yfxf这里当然也要求 f2(y)0定理:二元正态分布的条件分布仍然是正态分布 )1(),( 212xN其均值 是 x 的线性函数,这个结论在一些统计问题中很重要。)(1221mnmyxf),(114、随机变量的独立性定义 设 1, n为 n 个随机变量,若对于任意的 x1,x n成立 (1)1Pnx, 1Pnx x则称 是相互独立的。若 的分布函数为 ,它们的联合分布函数为 ,则(1)等价于对一i )(xFi ),(1nxF切 x1,xn成立 )()(),(1nF 在这种场合,由每个随机变量的(边际)分
35、布函数可以唯一地确定联合分布函数(Joint Distribution Function)。对于离散型随机变量, (1)等价于任何一组可能取的值(x 1,xn)成立,11 nn xPxP对于连续型随机变量,条件(1)的等价形式是对一切 x1,xn成立)()(,(1nnxfff这里 f(x1,xn)是联合分布密度函数(Joint density function),而 fi(xi)是各随机变量的密度函数。此外,注意到若 相互独立,则其中的任意 r(2rn)个随机变量也相互n,21独立,例如,我们证明 相互独立。1 1P1,nx Px1,nx nx, 1n 11x x随机变量的独立性概念是概率论中
36、最基本的概念之一,也是最重要的概念之一。5、随机向量变换(Transformation)及其分布若 的密度函数为 ,求 的分),(1n ),(1nxf ),(),(111 nnnff 布,这时有 11),(PyGn ny, ynndxxf 11),(22nyu1(1) 若对 存在唯一的反函数 ,且),(1niixfy ),1(,),(1nixyxni 的密度函数为 ,那么),(1n ),(1nyq (2)nduyG 1,比较(1)与(2)可知 ),(nyq其 它 的 值 域属 于若,0,),(|,111 nnfyJxf 其中 J 为坐标变换的雅可比行列式(Jacobian Determinan
37、t)nnyxJ 11这里,我们假定上述偏导数存在而且连续。随机变量的函数的独立性定理 若 1, n是相互独立的随机变量,则 也是相互独立的,)(,)(1nff这里 是任意的一元函数。),(if三、数字期望及方差1、数学期望一般地,如果 X 是随机变量,它的概率密度函数为 f(x),那么它的期望值为是 连 续 型 随 机 变 量 时当 是 离 散 型 随 机 变 量 时当dxfEx)(在许多问题中我们不仅需要知道 EX,而且还想知道 X 的某个函数 g(X)的数学期望。是 连 续 时当 是 离 散 型 时当 XdxfgXEx)()(23我们可以用同样的方法定义多元随机变量的函数的数学期望。假设随
38、机变量X1, X2, Xn的联合概率密度函数为 , ,那么),(21nxf ),(21nXgY nn dxxgYE 2121,),(如果随机变量是离散的,那么上面公式里的积分号用和号代替。利用这个定义我们可以得到下列结果(1)如果 a0,a1,an是常数,那么 100 nXEaXE(2)如果 X1, X2, Xn是相互独立的随机变量,那么 211 nnE2、方差(Variance)与协方差(Covariance)一个随机变量 X 的 r 阶中心矩被定义为 记为 。如果)(rXr被称为 X 的分布的方差或 X 的方差,常常记为 。 的正平)(,2Er )var(2X或2方根 被称为 X 的标准差
39、。关于方差,我们有一个有用的公式2222 )()(EX 和 Y 之间的协方差,记为 或XY,cov)( YEX 和 Y 之间的协方差是对它们之间的相关性的一个测度。如果 X 和 Y 是相互独立的,那么 =0。这导致下面的相关系数的定义,X 和 Y 之间的相关系数记为 被定义),cov( XY为 )var(r(,YXY由这个定义, 的取值一定在-1 和 1 之间。如果 X 和 Y 是相互独立的,那么X=0。如果 Y=aX+b,这里 a,b 是不等于 0 的常数,那么| XY|=1,此时,我们说 X 和 YXY是完全相关的。X 和 Y 的值越接近线性关系,| XY|值接近 1。利用这些定义,我们可
40、以得到下面的结果:如果 a0,a1,an是常数, X1, X2, Xn是随机变量,那么 ji jijiinXaXa ),cov(2)vr(vr 21024特别地,有 )var()var(1210X),co)r( 2221X3、随机向量的协方差矩阵对于随机向量而言,我们可以相似地定义它的期望和协方差矩阵。用 X 表示随机变量组成的向量,即 nX21假设 。那么 X 的期望值为ijjiiiii XE),cov(,)var(,)(2nnXE2121也即是一个随机向量的期望值等于它的各个分量的期望值组成的向量。我们定义一个随机向量 X 的协方差矩阵(Covariance Matrix)如下)()cov
41、( E 221 222 111 )()()( )( nnn nXXXE )var(),cov(),cov( ,coar,ar11 222 11 nnn n 221221nnn X 的协方差矩阵常常记为 ,它是一个正x定矩阵,如下是证明:25对于任意的不为零的向量 , 我们构造一个变量),(21naa XaY那么 Y 的方差,即证明了 是非负定的。0)()(XVarx x线性变换后的向量的均值与协方差如果 P 是一个 mn 常数矩阵, m n,那么 Z=PX 是一个 m 维随机向量,可以得到a) PXEZEb) x)cov()(四、条件分布(Conditional Distribution)、条
42、件数学期望(Conditional Expectation)及其条件方差(Conditional Variance)条件均值(Conditional Mean)是条件分布的均值,其定义为yyxfdxE是 离 散 的若 是 连 续 的若)|(,|条件均值函数 。的 回 归对称 为|条件方差(Conditional Variance)条件方差是条件分布的方差: |)|(|2xyExyVary dyf)|(|或(离散时)y xfE)|()|(2利用下式可以简化计算 22)|(|xyEyxVar并且有: |Ex记号 Ex表示对 X 的值的期望。几个重要的公式261) 、 )|()|(XYEX思考: 是
43、否成立?)|(|gg2) 、 )|()(3) 、方差分解公式(Decomposition of Variance ) 推导:分两步,先证明i) 0),|(cov,)|()|( ZXYEXYEZXYE即是 不 相 关 的和这是因为: )|)|)|(,0|()|(从 而进而有 )|,|covXYZEXYE我们考察 |)|(Z|()| 0|(|( XYEii)对于任意 Y 有: )|()|()| XYEZYXE因为 X 与 E( Y|X)是不相关,故 )|()|()( VarVar而 2| XYE)|(2E)|(Varx我们得到方差分解公式: )|()|()( XYrEXYrVax方差分解结果表明,在双变量分布中,y 的变差出自两个来源:1、由于 Ey|x随 x 变化的事实所产生的变差为回归方差(Regression Variance):回归方差= VarxEy|x2、由于在每一条件分布中,y 都围绕条件均值变化而产生的变差为残差方差(Residual Variance):残差方差= ExVary|x27这样, Vary=回归方差 + 残差方差。由方差分解公式,我们得到 ,这个是非常重要的公式,它常被)()|(YVarXEVar应用到寻求最小方差估计量的方法中.我们可以看一个实际的例子。例子