分享
分享赚钱 收藏 举报 版权申诉 / 35

类型广义线性模型.doc

  • 上传人:精品资料
  • 文档编号:8444101
  • 上传时间:2019-06-27
  • 格式:DOC
  • 页数:35
  • 大小:1.77MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    广义线性模型.doc
    资源描述:

    1、1广义线性模型广义线性模型*(Nelder 和 Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM 具有基本结构g(i)=Xi,其中 iE(Yi ) ,g 是光滑单调 链接函数,Xi 是模型矩阵的第 i 行,X 和 是未知参数的向量。此外,GLM 通常会做出 Yi 是独立的和 Yi 服从一些指数族分布的假设。指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM 的综合参考文献是 McCullagh 和 Nelder(1989) ,而Dobson(2001)提供了一个全面的介绍。因为广义线性模型是以“ 线性预

    2、测器 ”X的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。i=cexp(bti),例 1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果 i是第 ti 天的新病例的预期数量,则该形式的模型为

    3、请注意, “广义 ”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。可能是合适的,其中 c 和 b 是未知参数。通过使用对数链路,这样的模型可以变成 GLM 形式log(i)=log(c)+bti=0+ti1(根据 0=logc和 1=b的定义) 。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的 GLM 使用泊松反应分布,对数链路和线性预测器 0+ti1。,例 2:狩猎动物捕获猎物的速度 yi 往往随着猎物密度 xi 的增加而增加,但最终会趋于平衡,当捕食者

    4、捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是2其中 a 是未知参数,表示最大捕获率,h 是未知参数,表示捕获率为最大速率一半时的猎物密度。很显然,这个模型在其参数中是非线性的,但是通过使用倒数链路,右边的参数可以是线性的:(这里 01/a和 1h/a) 。在这种情况下,猎物捕获率的标准差可能与平均速率大致成比例,建议使用 Gamma 分布作为反应,并完成模型设定。们不限于示例的简单直线形式,但可以有对于线性模型可能具有的线性预测器的任何结构。2.1GLMs 的理论GLM 的估计和推理基于最大似然估计理论,尽管可能性的最大化需要迭代最小二乘法,与 1.8.6 节的方法相关。本部分首先介

    5、绍指数分布族,它允许发展一种通用方法来最大化 GLM 的可能性。然后基于似然理论的一般结果(在本章末尾推导)来讨论 GLM 的推论。在本节中,区分反应数据 y 和 Y 的观察值的随机变量有时很有用,所以它们在符号上具有区别性:对于估计和估计值,它尚未完成。32.1.1 指数族分布f(y)=expyb()/a()+c(y,),GLM 中的反应变量可以来自指数族的任何分布。如果一个分布的概率密度函数或概率质量函数可以写成,则该分布属于指数族分布4其中 b,a 和 c 是任意函数, 是任意的“尺度” 参数,并且 被称为分布的“典范参数”(在 GLM 上下文中, 将完全依赖于模型参数 ,但是目前没有必

    6、要做这个明确) 。例如,很容易看出,正态分布是指数族的一员,因为,.表 2.1 给出了在 R 中为 GLM 实施的指数族成员的类似分解。用 a,b 和 可以得到指数族分布的均值和方差的一般表达式。给定一个特定的 y, 的对数似然性仅仅只是将 logf(y) 视为 的一个函数。那是.将 l 作为一个随机变量来处理,通过用随机变量 Y 替换特定的观测值 y,可以评估l/ 的期望值:使用 E(l/)=0 这个一般结果, (在 取真值时,参见 2.4 节中的(2.14) )和重新排列意味着 E(Y)=b0( ) 。 (2.1)即任何指数族随机变量的均值由bw.r.t.的一阶导数给出。,其中 b 的形式

    7、取决于特定的分布。该等式是将 GLM的模型参数 与指数族的典范参数联系起来的关键。在 GLM 中,参数 决定了反应变量的均值,并且通过(2.1) ,它们决定了每个反应观测值的典范参数。,再次对似然性微分处理,并将其插入到一般结果中,E(2l/2 )=-E (l/)2(衍生物在真实 值下计算,参见结果(2.16) ,第 2.4 节) ,重新安排第二个有用的一般结果:var(Y)=b00()a().a 原则上可以是 的任何函数,并且当与 GLM 一起工作时,如果 是已知的,处理任何形式的 a 都是没有困难的。然而,当 未知,事情就会变得很尴尬,5除非我们可以写出()=/,其中 是一个已知常数。事实

    8、上,这种限制形式涵盖了所有有实际意义的案例(见表 2.1) 。a()=/ 允许基于正态分布的模型中的不等方差的可能性,但是在大多数情况下, 仅为 1.因此,我们现在有var(Y)=b00()/. (2.2)在随后的章节中,我们通常会将 var(Y)视为 E(Y)的函数,这会很方便,并且由于 和 通过( 2.1)链接,我们总能定义一个函数 V( )=b00 ( )/,使得 var(Y)=V() 。表 2.1 列出了几个这样的功能。2.1.2 拟合广义线性模型回想一下,GLM 模拟独立反应变量的 n 阶向量 Y,其中 E(Y) ,通过g(i)=Xi和Yifi(yi),其中 fi(yi)表示指数族分

    9、布,典范参数 i由 i(通过方程 2.1)决定,因此最终由 决定。给定 Y 的一个观测值向量 y, 的最大似然估计是可能的。由于 Yi 是相互独立的, 的似然函数是nL()=Yfi(yi),i=1因此 的对数似然函数是,右边对 的依赖是通过 i对 的依赖。请注意,函数 a,b 和 c 可能随着 i而变化- 例如,允许不同的二项分母 ni,对于每个二项式反应的观测值,或对于正常反应的不同方差(但在常数内已知) 。另一方面,对于所有的 i,假设 是相同的。正如前一节所讨论的那样,对于实际工作来说,只考虑可以写出 ai()=/i的情况就足够了,其中 i是已知常数(通常为 1) ,在这种情况下.通过偏

    10、导 lw.r.t 来最大化收益。 的每个元素,令结果表达式为零并求出 。,6通过这个链式法则,所以微分(2.1) ,我们可以得到,然后推出.将(2.1)和(2.2)代入最后一个方程,意味着求解 的方程是(2.3), (2.4)然而,如果权重 V(i)事先已知且与 独立,那么这些方程就正好是为了通过非线性加权最小二乘寻找 而必须解出的方程。在这种情况下,最小二乘的目标是其中 i非线性地依赖于 ,但权重 V(i)被视为固定的。要找到最小平方估计值,包括求解S/j=0j,但当 V(i )项被视为固定时,这个方程组很容易被看作是(2.3) 。这种对应立即提出了一种求解(2.3)的迭代方法。令 k表示在

    11、第 k 次迭代处的估计参数向量,并且令 k和 k为具有元素 ik=Xik和 ik=g-1(ik )的向量,其中 g-1( )是链路的反函数。从参数估计开始,0,迭代以下步骤,直到 k的序列收敛:1.计算当前 k隐含的 V(ik)项。2.为了得到 k+1(V(ik)被视为固定的而不是作为 的函数) ,给出这些估计,使用第 1.8.6 节的方法来最小化(2.4) 。3.设置 k 到 k+1实际上,这种方法比需要的要慢。第 2 步本身涉及迭代,但在 已经收敛之前实际上将非线性最小二乘方法迭代到收敛没有多大意义。因此,第 2 步通常被替换为:2.使用 k作为初始值,仅执行第 1.8.6 节中给出的求解

    12、( 2.4)的迭代方法的一次迭代来获得 k+1。7应用这种方法会产生一个相当紧凑和简洁的方案。为了看到这个,让我们以矩阵形式写出非线性最小二乘问题。定义对角矩阵 Vk,其中 Vkii=V(ik)(2.4)按照第 1.8.6 节的方法, 被它在 k附近的一阶泰勒展开替代,所以因此,没有进一步的近似Jij=i/j|k.Now.由“伪数据”的定义对角线权重矩阵.因此,下面的步骤可迭代到收敛1.使用当前的 k和 k计算伪数据 zk和迭代权重 Wk。2.将对于 的平方和最小化,以便获得 k+1,因此 k+1=Xk+1和k+1。将 k 增加 1。收敛的 解决了( 2.3) ,因此是 的最大似然估计。该算法

    13、在大多数实际情况下趋于一致,但也有例外(例如,二项数据的不良或过于灵活的模型) 。请注意,要开始迭代,我们只需要 0和 0的值,不需要 0。因此,迭代通常通过设置 0i=yi和 i0=g(0i )开始,并根据需要轻微调整 0i,以避免无限的 i0(例如,如果 yi=0 且有对数链路) 。该方法被称为 IterativelyRe-weightedLeastSquares(IRLS) ,原因很明显,在此背景下,归因于 Nelder 和Wedderburn(1972) 。2.1.3 IRLS 的目标是对数似然的二次近似IRLS 迭代中的工作线性模型不仅仅是寻找参数的最大似然估计的手段。在一个加性常数

    14、内8(在收敛时)也是模型在 附近的对数似然的二次近似。显然,第一个衍生工具是关于对数似然和 S 之间的 j匹配:实际上它们都是零。S 的二阶导数矩阵为-XWX/,并且这被证明与对数似然的期望的二阶导数矩阵匹配,并且因此在大样本极限中由大数定律来匹配二阶导数矩阵本身。为了证明这一点,首先将 u 定义为关于模型参数的对数似然的导数向量,因此 ui=l/i,然后将(2.3 )中的导数以矩阵向量形式重写为u=XTG1V1(y)/.注意,如果 V(i)被视为 的函数,算法不会最小化(2.4) ,因为在这种情况下,令导数为零不会产生(2.3) 。换句话说,最大似然与具有平均方差关系的最小二乘基本上不同。E

    15、(uuT) =XTG1V1E(Y)(Y)TV1G1X/2=XTG1V1VV1G1X/=XTWX/因为 E(Y-T) (Y-)T=V。根据一般似然结果(2.19) ,在 2.4.2 节中,-E(uu)也是对数似然的期望二阶导数矩阵。导数的这种对应关系足以证明 S 是 附近的对数似然的二次近似,并且由于MLE 的一致性,它们在真实参数值附近。2.1.4 AICforGLMs通过对可能性进行直接比较的模型选择存在如下问题:如果将冗余的参数添加到正确的模型中,可能性几乎总是增加(并且从不减小) ,因为额外的参数让模型更接近数据,即使这只意味着对数据的组成部分进行“噪声建模” 。正如在线性模型的情况下,

    16、如果我们能够根据它们拟合数据均值 而不是数据 y 的能力来选择模型,这个问题会得到缓解。在 GLM 背景下,合理的方法是根据模型最大化 l(;)而不是 l(;y )的能力来选择模型,但是为了做到这一点,我们必须能够估计出 l(;) 。实际上这个估计很明确。从 2.1.3 节我们已经有,并且因为 y=时,这也必须成立.然后,这个论据导致在第 1.8.5 节的(1.15) (只修改权重)产生了估计量tr(A)9 l(;y)tr(A)+n/2A=X(XTWX)1XTWandhencetr(A)=p,(可识别的)模型参数的数量。因此,在模型之间进行选择时,我们会选择哪个模型具有最高的 l( )-p 值

    17、,这相当于选择了 Akaike 信息准则的最低值( Akaike,1973) ,AIC=2-l()+p。前面的论点假设 已知。如果不是,那么就需要一个 的估计来计算 AIC,结果 AIC 中的惩罚项 p 将变为 p+1。这种归纳在 2.4.7 节中是合理的。2.1.5的大样本分布GLM 的分布结果并不精确,反而是基于大样本近似,利用包括一致性在内的最大似然估计的一般性质(见 2.4 节) 。根据最大似然估计量的一般性质,我们认为,在大样本限制下,N(,I1),其中 I=E(uuT)是模型参数的信息矩阵, u 是关于模型参数的对数似然函数的导数向量,因此 ui=l/i(见 2.4 节(2.20)

    18、和(2.19) ) 。在第 2.1.3 节中显示E(uT)=XTWX/ ,因此在大样本限制中N(,(XTWX)1).对于具有已知尺度参数 的分布,可以直接使用此结果来查找参数的置信区间,但是如果尺度参数未知(例如对于正态分布) ,则必须估计它,并且区间必须基于一个合适的 t 分布。尺度参数估计在第 2.1.7 节中介绍。2.1.6 通过假设检验比较模型考虑检验H0:g()=X00相反H1:g()=X11,其中 是反应向量 Y 的期望,Y 的元素是来自指数族分布的相同成员的独立随机变量,其中 X0X1。如果我们有反应向量的观测值 y,则可以执行广义似然比检验。令 l(0 )和 l( 1)为两个模

    19、型的最大似然率。如果 H0 为真,则在大样本限制中,2l(1)l(0)2p1p0, (2.5)sothattwicethewhichshouldstrictlybeamaximumlikelihoodestimate,其中 pi 是模型 i 中(可识别的)参数(i)的数量(参见 2.4.5 节和 2.4.6 节推导该结果) 。如果原假10设是假的,则模型 1 倾向于具有比模型 0 高得多的可能性,从而两倍于严格应该是最大似然估计的,或者在大样本限制下倾向于 MLE 的估计值。对数似然对于相关的 2分布的一致性差异太大。如果可以计算相关模型的对数似然性,那么近似结果(2.5)仅仅是有用的。在由

    20、IRLS 估算的 GLM 情况下,只有当尺度参数 已知时才是这种情况。因此,结果可以与泊松和二项模型一起直接使用,但不能与正态,伽马或反高斯分布(其中尺度参数未知)一起使用。稍后将简短地讨论在后面这些情况下做什么。偏差在实践中使用 GLM 时,在普通的线性建模中,用与残差平方和类似的方式来解释数量是有用的。Xi=1h i这个数量是模 型的偏差,被定义为thetermsinsidethesummation 其中 l(max )表示饱和模型的最大可能性:每个数据点具有一个参数的模型。在给定数据的情况下,l(max)是可能性具有的最大值,并且可以通过简单地设置 =y并计算出可能性来计算。 和 分别表

    21、示关于饱和模型和兴趣模型的典范参数的最大似然估计。注意如何将偏差定义为与 独立。表 2.1 列出了单个数据对偏差的贡献,对于若干分布-这些是偏差定义中求和中的项(术语) 。scaleddeviance,与偏差相关的是调整偏差,D=D/,这取决于尺度参数。对于二项分布和泊松分布,其中 =1,偏差和比例偏差是相同的,但通常情况并非如此。通过广义似然比检验结果(2.5) ,我们可以预计,如果模型是正确的,那么近似D2np, (2.8)tojustify(2.8)asalargesampleapproximationundermanycircumstancesD =2l(max)l()n2iyi(ii

    22、)b(i)+b(i),(2.6)(2.7)11在大样本限制中。实际上,这样的论点是捏造的,因为证明(2.5)的限制论证依赖于模型中参数的数量保持不变,而样本容量趋于无穷大,但饱和模型具有与数据一样多的参数。渐近结果可用于表 2.1 中的一些分布,以在许多情况下将(2.8)证明为大样本近似值(参见当然,对于正态分布和一致性链接,我们使用第 1 章的结果。这对于正态分布情形下是精确的。但是,请注意,它完全打破了二进制数据的二项式。鉴于偏差的定义,很容易看出,本节开始的似然比检验可以通过重新表达两次对数似然比统计量作为。然后在 H0 下(2.9)(在大样本极限内) ,其中 Di*是具有 pi 个可识

    23、别参数的模型 i 的偏差。但是,这只有在尺度参数已知时才有用,以便可以计算 D*。与未知 的模型比较在 H0 下我们有近似的结果and ,并且,f 如果被看作是渐近独立的,这就意味着,在大样本限制下(当然,在普通线性模型特例中结果确实如此) 。F 的有用性质是它可以在不知道 的情况下进行计算,这可以从比率收益的顶部和底部取消,在 H0 下,近似结果. (2.10)这个结果的优点是,当 未知时,它可用于基于模型比较的假设检验。缺点是对于 Di 的可疑的分布假设以及它所基于的独立性近似。当然,一个明显的替代方法是使用估计值 来获得每个模型的估计值Di*=Di,然后使用(2.9 )进行假设检验。然而

    24、,如果我们使用估计(2.11)来达到这个目的,则很容易看出它只是(n-p1 )F ,所以我们的测试将完全等同于使用 F 比率结果(2.10) ,但是使用Fp1-p0,作为参考分布。显然直接使用(2.10)是一种更保守的方法,因此通常是首选:它至少在估计尺度参数时考虑到了不确定性。2.1.7andPearsonsstatistic12正如我们已经看到的那样,参数 的 MLE 可以在不知道尺度参数 的情况下获得,但是在这些参数未知的情况下,通常必须进行估计。近似结果(2.8)提供了一个明显的估计量。一个 2n-p随机变量的期望是 n-p,所以等同于观测值达到我们的近似预期值D=D/(np). (2

    25、.11)第二个估计量基于 Pearson 统计量,定义为显然,X2/ 是一组零均值,单位方差,随机变量的平方和,具有 n-p 个自由度,这表明如果模型适当,则近似 X2/x2n-p:这个近似值是有根据的。将观测到的 Pearson 统计量设置为我们得到的预期值=X2/(np).请注意,它很明确的表明这一点,其中 W 和 z 是 IRLS 权重和伪数据,在收敛时进行评估。2.1.8 典范链接函数典范链接 gc 用于分布,是链接函数,使得 gc(i )=i ,其中 i是分布的典范参数。例如,对于泊松分布,典范链接是对数函数(其他示例见表 2.1) 。典范链接的使用意味着 i=Xi(其中 Xi 是

    26、X 的第 i 行) 。典范链接倾向于具有一些很好的性质,例如确保 保持在反应变量的范围内,但它们也具有更多微妙精细的优点,其中之一在此处被推导出。回想一下,似然最大化涉及对每个 j的对数似然性微分,并令结果为零,以获得方程组但是,如果正在使用典范链接,则i/j=Xij ,如果像通常情况, wi=1i,这个方程组可简化为XTyXT=0,i.e.toXTy=XT.即,简化为现在考虑 X 包含 1 列的情况:任意其他加权求和,其中权重由模型矩阵 P 给出,这意味着该系统中的一个方程简单地为 iyi=ii。RecallthatifZi:i=1.nareasetofi.i.d.N(0,1)r.v.sth

    27、enPZi22n.13回想一下,如果Zi :i=1.n是一组独立同分布,N(0,1)r.v.然后是 PZi2-2n。列(或这些的线性组合)在原始数据和拟合值之间保存。其中一个实际结果是,对于任何具有截距项和典型联系的 GLM,残差总和为零:这种“ 观察到的无偏性 ”是一个令人放心的特性。结果的另一个实际用途是在使用对数线性模型的分类数据分析中,其中它通过规定模型提供了一种方法,可以保存任何模型中保存的内置于研究设计中的总数。2.1.9 残差模型检查可能是应用统计建模中最重要的部分。在普通线性模型情况下,这是基于对模型残差的检验,模型残差包含数据中的所有信息,而不是由模型的系统部分来解释。残差检

    28、验也是 GLM 案例模型检验的主要手段,但在这种情况下,残差标准化是必要的,并且更加困难。对于 GLM 而言,不仅仅只检查原始残差的主要原因是难以检查原始残差检验假设的均值方差关系的有效性。例如,如果采用泊松模型,则残差的方差应与拟合值(i )的大小成正比增加。然而,如果将原始残差与拟合值作图,则需要一种杰出的能力来判断残差的可变性是否与均值成比例增加,而不是均值的平方根或平方。出于这个原因,通常将 GLM 残差标准化,以这种方式,如果模型假设正确,则标准化残差应该具有大致相等的方差,并且尽可能与来自普通线性模型的残差相似(尽管见第 6.5 节中图 6.9 的替代绘图方法) 。皮尔森残差根据拟

    29、合模型,将残差标准化的最明显的方法是将它们除以与其标准差成比例的量。这导致了皮尔森残差,如果模型正确,它应该具有近似为零的均值和方差 。当与拟合值或任何协变量(无论是否包含在模型中)进行绘图时,这些残差不应显示均值或方差的任何趋势。 “皮尔森残差 ”这个名字与相关的皮尔森残差的平方和给出了 2.1.7 节中讨论的皮尔森统计量。请注意,皮尔森残差是来自收敛 IRLS 方法的工作线性模型的残差除以收敛IRLS 权重的平方根。异常残差在实践中,皮尔森残差的分布在零附近可以是非常不对称的,因此它们的行为不像可能希望的那样接近普通线性模型残差。异常残差在这方面通常是优选的。异常残差是通过注意到偏差对 G

    30、LM 起到与残差平方和对普通线性模型起相同作用来得到:确实,对于普通线性模型来说,偏差是残差平方和。在普通线性模型14情况下,偏差由平方残差和组成。这就是具有适当标示的偏差组成部分的平方根的残差。因此,把 di 写成第 i 个数据所贡献的偏差的一部分(即(2.7)中求和的第 i项) ,我们有并且通过与普通线性模型类比,我们可以定义.根据需要,这些“异常残差”的平方和给出了偏差本身。现在如果计算了所有参数已知的模型的偏差,则(2.8)将变成 D*x2n,这可能表明对于单个数据 dix12,可推出 。当然, (2.8)不能合理地应用于单个数据,但对于良好的拟合模型来说,这表明我们可能预期异常残差具

    31、有类似于 N(0,1)随机变量的行为,特别是在对(2.8 )预计是一个合理的近似值的情况下。2.1.10 拟极大似然迄今为止,GLM 的处理假定反应变量的分布是指数族的已知成员。如果有充分的理由假设该反应变量遵循特定的分布,则它对该分布上的基本模型很有吸引力,但是在许多情况下,反应分布的性质并不十分清楚,并且可能它只能详细说明反应变量的方差与其均值之间的关系。也就是说,函数 V( )可以被指定,但是好不了多少。然后出现的问题是,是否有可能开发用于拟合和推理 GLM 的理论,从仅指定平均方差关系的位置开始。事实证明,基于拟极大似然的概念,开发出令人满意的方法是可能的。考虑一个具有均值 i和已知方

    32、差函数 V(i )的随机变量的观测值 yi。然后对于给定yi 的 i的对数拟极大似然定义为(2.12)正如我们将会看到的,这个函数的关键特征是它具有 li 的许多有用特性,即对应于单个观测的对数似然,但只需要 V 的知识而不是 Yi 的全部分布。假设数据是独立随机变量的观测值,我们可以定义所有反应数据的平均向量 的对数拟极大似然或定义 的任意参数向量为.q 的关键特征是,为了推导 GLM,它表现得与对数似然函数非常相似,但只需要方差函数就可定义它。15例如,考虑获得 GLM 参数 的最大拟似然参数估计。对 q 关于 j产量微分,所以参数估计是方程的解但这正是方程组(2.3) ,必须解决这个问题

    33、才能找到 GLM 的 m.l.e.s。因此,最大拟似然参数估计可以通过通常的 GLMIRLS 方法找到,在任何情况下只需要知道 V( ) 。此外,对数拟似然性与参数估计值的大样本分布结果(参见 2.1.5 节)的对数似然性具有足够的性质,并且对于参数的最大拟似然估计量值也适用。类似地,当对数似然度 l 被对数拟似然函数 q 代替时,2.1.6 节的大样本分布结果支持用GLM 进行假设检验。第 2.4.8 节提供了这些断言的理论基础。请注意,饱和模型的对数拟似然始终为零,因此 GLM 的拟偏差很简单Dq=2q().很显然,关于残差和尺度参数估计的讨论也从似然性中延续到拟似然的情况,但不超过用 q

    34、 代替 l。16拟似然性方法的实际应用要求对(2.12)中的积分进行评估,但对于大多数实际有用的 V 的形式,这是可能的:McCullagh和 Nelder(1989 )给出了例子,或者在 R 中你可以输入例如以获得所执行的任何特定均值方差关系的 qi 形式。对于表 2.1 中对应于指数族分布的均值方差关系,拟偏差的形式精确对应于该族的偏差形式。拟似然性的一个主要实际用途是提供一种来模拟比泊松或二项分布(具有其固定尺度参数)更可变的计数数据的方法:拟似然性方法假定 未知。这种“ 过度分散”的数据在实践中很常见。另一个实际用途是提供一种对具有平均方差关系的数据建模的方法,其中没有明显的指数族分布

    35、:例如,预期方差与均值成比例的连续数据。2.2GLM 的几何图形GLM 和 GLM 拟合的几何图形比普通线性模型的几何图形更难,因为用于判断模型拟合的可能性通常不意味着拟合可以通过模型和数据之间的欧几里得距离来判断。图 2.1 用一个含有 2 个参数的 GLM 的 3 个数据拟合 Gamma 分布和对数链接的例子说明了 GLMs 的几何情况。1.4 节的平坦模板子空间现在被一个弯曲的“模型流形 ”所取代,该模型流形由模型可预测的所有可能的拟合值向量组成。由于模型流形与数据之间的欧几里德距离不再被用来进行拟合度的测量,因此必须采用不同的方法来说明估计的几何结构。图 2.1 右端板的黑线显示了所有

    36、反应变量的组合,这些变量产生了相同的估计模型。注意这些线条通常并不平行,并且通常不与模型流形正交。要充分理解图 2.1,它可能有助于考虑一些不同的含有 2 个参数模型的图形。1.对于一个普通的线性模型,模型流形将是一个平面,所有的相等线拟合将是正交的(因此相互平行) 。2.对于假定正态分布(但是非一致性链接)的 GLM,相等线拟合将与它们遇到的模型流形的(切线空间)正交。3.对于拟合 4 个数据的含有 2 个参数的模型,相等线拟合将变成相等平面拟合。一般来说,图 2.1 所示的几何图形适用于任何 GLM。有了更多的数据,相等线拟合就变成了 n-p 维相等面的拟合,其中 n 和 p 分别是数据和

    37、参数的数量:对于任何固定的 ,方程( 2.3)给出了定义这样一个平面的 y 的限制。请注意这些平面171.20.0 0.2 0.4 0.6 0.8 1.00.20.30.40.50.60.70.8yx图 2.1GLM 的几何图形。左端板展示了所示的三个 x,y 数据的广义线性模型 E( y)=exp(0+1x)的最佳拟合,假设每个 yi 是由模型给出的带有均值的 Gamma 分布随机变量的一个观测值。右端板展示了使用此模型作为示例的GLM 拟合的几何图形。所示的单位立方体表示向量( y1,y2,y3)T 定义单点空间。灰色表面根据模型显示所有可能的预测值(在单位立方体内) ,即它表示所有可能的

    38、(1,2,3 )T 值。由于参数 0和 1允许在所有可能的值上变化,这就是相应模型“ 拟合值”追踪的表面:“模型流形” 。连续线从立方体的一个面开始,在另一个面上离开,是等效拟合线:位于这样一条线上的反应数据(y1,y2,y3)T 的值各自导致相同的 0,1 的最大似然估计,即相同的(1, 2,3)T。注意等效拟合线既不相互平行,也不与模型流形正交。可以相交-稍后将返回的点。对于离散反应数据,图片没有什么不同,尽管只有在可能性连续概括下(通常可以通过在概率函数中用合适的伽玛函数代替阶乘)才能严格得到相等线拟合。只有正态分布才能与模型流形有正交的相等线/平面拟合。对于其他分布,相等线/平面拟合有

    39、时可能彼此平行,但决不会全部与模型流形正交。2.2.1IRLE 的几何图形通过考虑一个参数模型对 2 个反应数据的拟合,IRLS 估计算法的几何图形是最容易理解的。图 2.2 说明了这种模型的几何结构:在这种情况下,一个具有对数链接和 Gamma 错误的 GLM,182.01.50.0 0.5 1.08101214161820xy150 5 1005101512图 2.2GLM 的几何图形。E(yi)i=20exp(-xi)其中 yiGamma 和i=1,2。左端板展示了拟合 2 个 x,y 数据的模型(连续线)的最大似然估计值,显示为。右端板显示了拟合几何图形。1515 的正方形是空间2 中

    40、的一部分,其中(y1,y2)定义为单点。粗体曲线是“模型流形 ”:它根据模型包含所有可能的点(1 ,2) (即,当 变化时, (1 ,2)可以追踪该曲线) 。细线是相等线拟合的例子。位于这些线之一上的所有点(y1,y2)共享相同的 的 MLE,即(1, 2):这个 MLE 是相等拟合线切割模型流形的地方。对于=.1, .2,.3,.4,.5,.6,.7,.8,.9,1,1.2,1.5 ,2,3,4 绘制相等线拟合。(=.1 ,.7 和 2 用实线表示,当 =2时候的线接近图形的底部。当 =.1时候的线在该图的绘图区外,但出现在随后的图中。 )但是可以通过链接和分布假设的任意组合来为 GLM 构

    41、建类似的图片。现在拟合 GLM 的关键问题是模型流形不平坦,并且相等线拟合与它们遇到的模型流形不正交。IRLS 方法对拟合问题进行线性转换和重新调整,因此在当前的 的估计值时,模型流形和相等线拟合是正交的,并且在重新调整的空间中,当前 的估计值的位置由 X 乘以当前的 估计值给出。这种重新调整会产生一个拟合问题,可以将其视为局部线性,从而可以用最小二乘法更新 估计值。图 2.3 说明了 IRLS 步骤如何涉及形成伪数据并对其进行加权,从而将拟合问题有效地转化为可以通过线性最小二乘法近似解决的问题。该图说明了 IRLS步骤中涉及的转换,这些转换重复进行,直到 IRLS 方法被迭代到收敛。(a)

    42、(b)19105 1500510152150 5 1005101521 1(c) (d)1.50.0 0.5 1.0 2.0 2.5 3.00.00.51.01.52.02.53.023.00.50.0 1.0 1.5 2.0 2.50.00.51.01.52.02.53.021 1图 2.3 基于图 2.2 所示的 GLM 的 IRLS 估计的几何图形。 (a)显示拟合问题的几何图形-模型流形是粗黑色曲线,等拟合线是细线(如图 2.2) ,数据是和拟合值的当前估计值 k。 ( b)问题以当前拟合值为新中心(yi 被 yi-i代替) 。(c)问题被重新线性调整,使得 X 的列现在跨越模型流形的

    43、切线空间。切线空间用灰线表示(这个步骤用 g0(ik) (yi-ik ) )代替 yi-ik。(d)该问题是线性转换的,因此现在由 Xk给出位置。对于大多数GLM,现在必须通过将相对于每个轴的分量乘以Wi 来再次调整问题,其中 Wi是迭代权重:这将确保通过的相等估计线与切线空间正交。在当前的例子中,这些权重都是 1,因此所需的正交性已经成立。现在对于转换后的问题,在模型流形的附近,可以用切线空间来近似,其中相等线拟合近似正交:因此,可以通过找到转换数据的最小二乘投影来获得 和 的更新估计,到切线空间(灰线) 。200.60.40.0 0.2 0.8 1.00.00.20.40.60.81.01

    44、2图 2.4 拟合和收敛问题的几何图形。具有对数链接和正常错误的含有 1 个参数的 GLM 的几何图形被显示。厚曲线是模型流形 -根据模型,在单位平方内包含所有可能的数据拟合值。细线是相等线拟合(水平如图 2.2) 。注意在图的左上角,相等线拟合是如何相互交叉的。该重叠区域中的数据将产生具有多于一个参数值的局部最小值的模型可能性。考虑 IRLS 拟合方法的运行,表明在这种情况下,根据用于启动拟合过程的初始值,它可以收敛到不同的估计值。说明问题反应向量的位置,用于说明文本中的非独特收敛。2.2.2IRLS 收敛的几何图形图 2.4 说明拟合模型的几何图形,E(yi)i=exp(-xi) ,其中

    45、yi 是正态分布的,有两个数据 yi 拟合,其中 x1=0.6 和 x2=1.5。如前两节所示,相等线拟合显示在一个图形上,其中反应向量(y1,y2)T 将定义一个单点,并根据该模型,所有可能的拟合值(1, 2)T 的集合显示为一条厚曲线。在这个例子中,相等线拟合在图的左上角相交并交叉(对应于非常差的模型拟合) 。这个交叉点是有问题的:特别是,IRLS 拟合位于左上角的数据的结果将取决于 IRLS 处理开始的初始参数估计,因为每个这样的数据点位于两条相等拟合线的交点处。如果 IRLS 迭代从图形右上角的拟合值开始,则接近右上角的拟合值将被估计,然而用图形左下角的拟合值开始迭代将导致估计的拟合值

    46、不同,并更接近图形的左下角。在实践中这确实发生,可以很容易的在 R 中展示出来,通过拟合数据y1=.02,y2=.9,如图 2.4 所示,可以很容易地证明。请注意,这里的第二个拟合实际上具有较高的可能性(较低的偏差)-拟合在可能性方面不是等同的。引起这些模糊的拟合几何图形的类型并不总是会发生:例如,一些模型具有相等拟合的平行线/平面,但对于任何具有相等线拟合的交叉线/平面的模型而言,存在一些模糊性的范围。幸运的是,如果模型是一个好的模21型,那么位于模糊区域的数据往往是不太可能的。在图 2.4 的例子中,问题区域完全由模型只能很差地拟合的数据组成。由此可见,非常差的数据模型可能会产生这种类型的

    47、估计问题:但对于非常差的模型而言,将模型作为任何复杂数据集的早期尝试的特征并不罕见。如果遇到这样的问题,那么通过对转换后的反应数据进行线性建模可能会更好,直到已经确定足够好的候选模型转换回 GLM 为止。当然,如果选择合理的起始值,那么在拟合 GLM 时拟合过程中的模糊性不太可能引起重大问题:毕竟,该算法将收敛到可能性的局部最小值之一。然而,当它在可选最小值之间循环而不会收敛时,模糊性可以通过“性能迭代” 在 GAM估计中引起更严重的收敛问题, 。2.3GLMswithRglm 函数提供了在 R 中使用 GLM 的手段。它的使用与 lm 函数的使用类似,但有两点区别。模型公式的右侧指定线性预测

    48、变量的形式,现在给出了反应均值的链接函数,而不是直接使用反应均值。此外,glm 需要一个族论点,用于指定要使用的指数族的分布以及与之一起使用的链接函数。在本节中,将介绍 glm 函数与各种简单 GLM 的用法,以说明 GLM 涵盖的各种模型结构。2.3.1 二项分布模型和心脏病如果对于心脏病患者能够提供最好的照顾,那么能够尽早发现心脏病是再好不过的。关于检测心脏病的一种方法是检测血液中肌酐激酶(CK) 的水平。22CKvalue PatientswithPatientswithoutHeartattack heartattack20 2 8860 13 26100 30 8140 30 5180 21 0220 19 1260 18 1300 13 1340 19 1380 15 0420 7 0460 8 0表 2.2 作为 CK 水平函数的心脏病发作概率的数据(来自 Hand

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:广义线性模型.doc
    链接地址:https://www.docduoduo.com/p-8444101.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开