1、2014年3月 第36卷第2期 地下水 Ground water Mar,2014 Vo136 NO2 线性回归法在地下水水质分析中的应用 白高峰张燕君,宣学丽。张银妹,石睿 (石家庄经济学院,河北石家庄050000) 摘 要 运用逐步线性回归的理论方法,分析研究区的地下水水质指标间的相关性,研究区属砷元素富集地 区,对研究区建立砷含量与其他指标之间的线性回归模型,确定砷含量与HPO 、Fe、I一,Br一的含量相关性较显 著。此模型可以用于研究区的地下水环境的规划、评价、研究工作中。 关键词 地下水水质;砷;逐步线性回归分析 中图分类号P64112 文献标识码 A 文章编号 10041184(
2、2014)02001403 Application of Linear Regression in Groundwater Quality Analysis BAI Gaofeng,ZHANG Yanjun,XUAN Xueli,ZHANG Yinmei,SHI Rui (Shiazhuang University of Economics,Shijiazhuang 050000,hebei) Abstract:The paper tries to analyze the relationship between groundwater quality indexes in the studi
3、ed area with Step wise Linear Regression theoryAs the studied area is with high level of arsenic,the paper builds a LRM(Linear Regression Mode1)on the basis of the relationship between arsenic and other quality indexesThe model shows that content of arsenic has close relationship with the content of
4、 HPO4一 ,Fe,Iand Br一The model can be applied to groundwater environment plan ning,assessment and research Key words:Groundwater quality;arsenic and Stepwise Linear Regession Analysis 地下水是人类一种特殊的宝贵资源,地下水环境关系人 们的生活水平和社会经济的可持续发展。水质分析是水环 境规划、评价、管理、研究的基础。精准的水质分析能够更清 楚的认识地下水化学成分的特性及其演化规律等问题。水 质分析对促进地下水资源可持
5、续开发利用有着重要的现实 意义。目前,有很多的地下水水质分析方法。本文采用多元 线性逐步回归法建立模型对地下水水质进行分析。 1线性逐步回归分析原理 多元线性回归分析是回归分析的一个重要分支,分析一 个因变量与多个自变量之间的线性关系。应用多元线性回 归分析处理实际问题时,一方面,为了获得较全面的信息,我 们希望模型包含尽可能多的自变量,另一方面,有些自变量 与其他自变量作用重叠,如果把他们都引入模型,不仅增加 了计算量,而且对模型的参数的估计和模型的预测带来不利 影响。逐步回归法可以选取最合适的自变量,建立即合理又 简单实用的模型。 逐步回归的基本思想是在考虑的全部自变量中按其对y 的作用大
6、小,显著程度大小或者说贡献大小,由大到小地逐 个引入回归方程,而对那些对Y作用不显著的变量可能始终 14 不被引人回归方程。另外,己被引人回归方程的变量在引入 新变量后也可能失去重要性,而需要从回归方程中剔除出 去。引人一个变量或者从回归方程中剔除一个变量都称为 逐步回归的一步,每一步都要进行F检验,以保证在引人新 变量前回归方程中只含有对Y影响显著的变量,而不显著的 变量已被剔除。 逐步回归分析的实施过程是每一步都要对已引入回归方 程的变量计算其偏回归平方和(即贡献),然后选一个偏回 归平方和最小的变量,在预先给定的F水平下进行显著性检 验,如果显著则该变量不必从回归方程中剔除,这时方程中
7、其它的几个变量也都不需要剔除(因为其它的几个变量的偏 回归平方和都大于最小的一个更不需要剔除)。相反,如果 不显著,则该变量要剔除,然后按偏回归平方和由小到大地 依次对方程中其它变量进行F检验。将对Y影响不显著的变 量全部剔除,保留的都是显著的。接着再对未引人回归方程 中的变量分别计算其偏回归平方和,并选其中偏回归平方和 最大的一个变量,同样在给定F水平下作显著性检验,如果 显著则将该变量引入回归方程,这一过程一直继续下去,直 到在回归方程中的变量都不能剔除而又无新变量可以引入 收稿日期20131231 作者简介 白高峰(1989一),男,河jE邢台人,在读硕士研究生,主攻方向:地质工程。 3
8、6卷 第2期 时为止,这时逐步回归过程结束 。 2 应用实例 研究区是一个砷元素富集的地区,根据研究区的地下水 水质分析资料,选取196组有效水样,用SPSS建立As与其他 指标的相关关系线性回归模型。主要分析步骤如下: 21 选取研究区有效水样分析数据 研究区的有效水样196组,分析指标37项,包括K Na ,Ca“,Mg ,Cl一,S04 ,HPO4 ,CO3 ,HCO3一, NO3一,NO2一,NH4 ,F一,I一,Br一,Fe,As,Mn,pH,TDS,OC 等。 22对各个指标逐一进行对数变换及检验。确保各指标的 数据满足正态分布 ; 对各个指标的数据进行对数变换后做正态分布检验,各
9、 指标数据呈现较好的正态分布。以总砷和总铁含量为例说 明之。图1是砷含量PP概率图,图上显示数据点和理论 直线基本重合,图2是砷含量趋势PP图,图中数据点分布 在Y=0直线附近,正态离差的评分绝对值都在008以内。 图3、图4分别是铁含量PP概率图和铁含量趋势PP图。 从图中可以看出Fe也满足正态分布。因此,对数据进行对 数变换后显示良好的正态分布。 008 0 06 0O4 0 02 堡 窖000 柏 一002 图1 As的正态PP图 每 0 琶 罟 帛; 毫蝣 0 O O 2 0 4 06 08 10 观测的累积概率 图2 As的趋降正态PP图 23使用逐步回归法。建立回归模型 统计分析建
10、立了4个回归模型(见表1),第一个模型只 地下水 2014年3月 移人了变量HPO ,第二个模型又移入变量Fe,第三个模型 又移人变量I一,第四个模型又移入变量Br一。R 是衡量模型 拟合优良程度的量,第四个模型修正后的R 为0279,在四 个模型中最高,同时其标准估计的误差也是最小的,表明第 四个模型拟合的最好,作为最优回归模型。 图3 Fe的正态PP图 a lo 静 o 4 0 _ 峨 一 图4 Fe的趋降正态PP图 模型汇总 a预测变量:(常量),HPO4 ; b预测变量:(常量),HPO ,F ; c预测变量:(常量),HPO4 ,Fe,I一; d预测变量:(常量),HPO4 ,Fe,
11、I一,Br一; e因变量:As 表1模型汇总表 建立回归方程后,进行回归方程的F检验和回归系数的t 检验,检验结果如下: 15 36卷 第2期 方差分析表 a预测变量:(常量),HPO ; b预测变量:(常量),HPO ,Fe; c预测变量:(常量),HPO ,Fe,I一; d预测变量:(常量),HPO ,Fe,I一,Br一; e因变量:As 表2方差分析表 表2为方差分析表,从表中看出F值198291,P值 001,结果说明第四个模型在0O1的统计意义上是显著 的,回归效果较好。 系数 a因变量:As ug1 表3系数分析表 表3为回归系数分析表,从表中可以看出P值001, 结果说明第四个模
12、型在001的统计意义上是显著的。 下面检验残差是否符合正态性分布,从图5(回归标准 l6 地下水 2014年3月 化残差的标准PP图),可以看出期望的累积概率和观测的 累积概率基本一致,分布在图中对角线附近,说明残差符合 正态性分布。 图5 回归标准化残差的标准PP图 24 确定与研究区As含量有明显相关性的指标 经上述分析可以得出,研究区的As含量与HPO 、Fe、 I一、Br一含量有明显的相关关系,他们之间的关系可以用回归 方程 As=15842+12852HPO 一+6413Fe+1300351一一 44853Br一 表示,其中As含量和HPO 、Fe、I一含量具有正相关 性,而和Br一
13、含量具有负相关性。 3 结语 用线性分析逐步回归法对研究区地下水水质分析数据建 立砷含量与其他指标含量的多元线性回归模型,依次剔除与 砷相关性不显著的指标,逐次引入与砷相关性显著的指标, 最终确定模型方程: As=15842+12852HPO 一+6413Fe+130035I一一 44853Br As含量与HPO 、Fe、I一、Br一四个指标含量存在显著的 相关性,四个相关性显著的指标按其显著性大到小排序为 HPO 、Fe、I一、Br一。可以将此结论应用于研究区地下水环 境的规划、评价、研究工作中。 参考文献 1向东进实用多元统计分析中国地质大学出版社20059 2何晓群,刘文卿应用回归分析M北京:中国人民大学出版 社2001,6 3刘文波,高存荣,等河套平原浅层地下水水化学成分及其相关 性分析J中国地质2010,37(3):816823 4Mohammad Muqtada Ali Khan,Rashid UmarEvaluation of Ground water Quality Using Linear Regression Mode1Journal of Applied Sci- enees Research,8(1):251260,2O12