1、数学地质讲义,资源与土木工程学院侯根群,绪 论,一、数学地质的定义 是地质学科中的一个分支学科、边缘学科。边缘学科:数学 、地质学。 自然科学发展的趋势:各学科之间相互渗透。地质学、物理学-地球物理学-地球物理勘探;地质学、化学-地球化学-地球化学找矿;地质学、数学 -数学地质。 传统地质学-定性描述为主,数学地质学科的出现是地质学发展史上的重要进展。,分支学科:作为一个独立的学科形成于上世纪60年代,标志为:1968年在巴黎召开的国际地质大会上正式成立了“国际数学地质学会(IAMG)”,开始出版geomathmatics杂志。数学地质方法在地质研究中得到广泛应用。取得了好的地质效果,但不是成
2、熟的学科。数学地质发展迟缓的原因:1、地质学科定性描述为主;2、地质学研究对象复杂; 时空跨度大;地质事件的不可逆性。,两种观点: 1、狭义观点:“数学地质是建立、检验和解释地质过程概念的随机模型科学。” 2、广义观点:“地质科学中全部数学的应用”,赵鹏大教授给出的定义: 数学地质是研究地质运动数量规律的科学。它以数学为工具、以计算机为手段、以解决地质问题为目的。 一般模式: 地质问题 数学问题 结果 地质解释 合理的实现两个“转换”是取得好的地质效果的关键。 (1)熟练掌握各种数学地质方法的原理、应用条件及可解决问题的类型; (2)熟悉相应的地质问题。,数学地质的研究过程 数学地质的基本工作
3、过程可以概括为:由地质学家提出地质问题,分析问题的地质因素,建立相应的地质概念模型;选择合适的数学方法,将定性的地质概念模型转化为定量的数学模型并研制相应的应用软件;对计算机输出的定量结果及地质图形资料进行地质解释,并在此基础上确定或修改给出的地质概念模型及相应的数学模型,以期解决所提出的地质问题。,二、数学地质产生的背景,1、数学在科学研究中扮演着非常重要的作用。 数学是探索各种科学规律的有效通用工具。凡是在研究量、量的变化、量的关系、量的关系的变化、量的变化的关系、关系的关系、变化的变化、主要关系和次要关系、共性、共性的共性等一系列复杂情况时没有数学作为工具是不行的,只是应用程度和范围有所
4、不同而已。,2、地质领域研究的发展需要数学工具的介入 (1)定性的描述满足不了生产的需要。 (2)大量地质数据的产生也需要数学工具的介入。 3、计算机技术的飞速发展促进了数学和地质的结合,三、数学地质发展史(四个阶段),1、孕育阶段(1950年前) 1840年英国地质学家Lyell首次以古生物化石的统计分析为论据,对第三系地层进行了划分,确定了岩石地层次序,著述了定量动物学一书,开创了数学方法引入地质学问题研究的先例。上世纪三十年代后期,Simpson(1939) 著述的分析地质学一书中列举了统计学在生物研究中的多方面应用。Burma(1949)在“多元分析地质学和古生物学中的一种模型分析工具
5、”一文中明确提出了多元统计方法是一种最有前景的生物计量方法。Krumbein和格里菲斯在沉积学研究中也使用了概率统计方法,为数学方法研究地质现象和个别指标的统计分析解决具体地质问题奠定了基础。这一阶段也是统计分析在地质学中应用的可能性问题讨论最为激烈的时期。,2、早期阶段(1951-1960) Krumbein(1956)在研究岩石的矿物成分、岩性和化学成分时,应用了多元统计方法,并把岩石成分作为n维空间中的一个点或向量进行统计处理。尤其值得指出的是,1958年由Krumbein和斯洛斯公开发表了第一个面向地质应用的计算机程序,标志着计算机技术在地质研究中应用的开端,加速了地质学的定量化研究进
6、程。1958年Sichel和Kridge编著的地质统计学及Allais(1957)发表的单元中矿床数服从泊松分布的矿产资源定量评价等重要文献奠定了地质统计学分支学科的基础,是数学地质早期发展的重要阶段。,3、形成发展阶段(1961-1980) 自1968年在布拉格第23届国际地质大会上成立国际数学地质协会(IAMG)并由维斯捷列马斯任第一届国际数学地质协会主席以来,数学地质这一边缘交叉学科得到了长足的发展。1969年出版了两种专门的数学地质刊物Mathematical Geology和Computers &Geosciences,后来又设立了新刊物Nonnewreable Resources。
7、随着人类对资源需求的增加,社会对资源评价和预测研究精度的要求也逐渐提高,迫使地质学家和工程技术人员寻求更加可靠和精确的评价和预测模型。例如,在石油禁运和社会对油气需求增大的背景下,Harris(1973)发表了多元统计评价及主观概率评价两种油气资源评价模型。为了加强矿产资源的定量评价,Agterberg(1974)针对法国和非洲的一些固体矿床的储量和品位的评价,提出了矿产资源评价的逻辑模型。,4、深入广泛的发展阶段(1980 至今) 这一阶段中,数学地质向更广泛和更高水平发展。随着超大规模集成电路的计算机的研制成功和各种新的应用数学模型的建立,促进了数学地质向更加深入和稳健的方向发展。如日本林
8、知已夫的数量化理论,美国麦克卡门和波特波尔的特征分析和前苏联的康士坦丁诺夫的逻辑信息方法等为定性地质变量和定量地质变量的联合数学模型的建立提供了基础。地质过程的计算机模拟、地质数据库的建立和地学领域内人工智能专家系统的研制和应用,为数学地质的广泛应用提供了更加先进和方便的手段。,四、方法分类,1、定量地层学:研究沉积韵律、旋回等; 数学工具:马尔可夫链、马尔可夫随机程。2、地质统计学: 储量计算(物化探数据处理); 数学工具:区划变量理论、半变异函数等。3、矿床统计预测:定量找矿预测; 数学工具:处理定性变量的统计方法; 处理定量变量的统计方法(多元 统计分析方法)。,五、多元统计分析方法及可
9、解决的地质问题,第一章 方差分析第二章回归分析第三章趋势分析第四章 聚类分析第五章判别分析第六章 因子分析第七章 对应分析第八章 典型相关分析,1、分类问题; 2、研究变量间的相关关系; 确定性关系 相关关系 3、简化结构。,第一章 方差分析(Analysis of Variance),根据来自多个正态母体的子样,在各母体方差相等的假设前提下,检验其均值是否有显著差异(影响因素是否显著)的一种参数检验方法。 研究不同岩体某元素含量的差异;考察不同班级某课程的学习情况等。分为:单因素方差分析;双因素方差分析。,第一节单因素方差分析,影响数据变化的因素只有一个(或只考虑一个),一、离差平方和的分解
10、,总离差平方和:组间离差平方和:组内离差平方和:,组间变异,总变异,组内变异,二、检验,假设各母体的均值相等(母体无差别):H0:1=2.=m (第一次) 拒绝假设;因素影响显著; 接受假设;因素影响不显著。,1、正态分布:2、 分布:设 相互独立,且服从标准正态分布,则:,3、F分布:设X、Y相互独立,且:则:,三、计算步骤,方差分析表,某铜矿取样方法差异性检验(-1*100),例题,四、说明,1、如果方差分析结果差异显著,仅说明至少 有一对母体均值有差异,并不排除某几个 母体来自同一母体。2、数据同时加、减、乘、除不为零的常数不影响统计结果。,3、当各母体的样品数不同时,也可进行方差分析。
11、,第二节 双因素方差分析(无交互作用),根据实验数据,同时检验两个因素对实验结果影响是否显著。,原始数据的形式,B 1 2 mA12n,一、离差平方和的分解,:数据总离差平方和;反映数据的变化大小。1:行间离差平方和;反映A因素的影响。2:列间离差平方和;反映B因素的影响。e:随机离差平方和;反映随机因素的影响。,二、F检验,设: 拒绝假设,A因素影响显著; 接受假设,A因素影响不显著。,拒绝假设,B因素影响显著; 接受假设,B因素影响不显著。,三、计算步骤,方差分析表,第三节 双因素方差分析(有交互作用),原始数据的形式 B 1 2 mA12n,一、离差平方和的分解,:数据总离差平方和;反映
12、数据的变化大小。A :行间离差平方和;反映A因素的影响。B:列间离差平方和;反映B因素的影响。I:交互离差平方和;反映A B因素交互的影响。e:随机离差平方和;反映随机因素的影响。(第二次),二、F检验,例:,为了研究3种小学英语教材用两种不同的教学方法(一种是传统讲授法,另一种是将课堂讲授与学生的游戏和活动结合起来的方法)所产生的教学效果有什么不同,研究者从小学五年级学生中随机抽取了24名被试,并随机分成6组,每组有4名被试,每组被试被随机指派接受一种实验处理,经过一段时间的教学实验之后进行统一测试,结果如下,试对实验结果进行方差分析。,第四节在地质工作中的应用,、地质体特征差异性的确定。比
13、简单用平均值的方法结果可靠;、确定区分地质体的最佳指标,化探异常评价最佳指示元素的选择。、测试质量检查。、取样问题。不同取样方法系统误差的确定;取样间距的确定。,方差分析在实际工作中有广泛的应用。关键是将需要研究的具体问题转换成方差分析的数学模型。“考察母体均值是否有显著差异;考察某个因素对结果影响是否显著”这类问题可用方差分析的方法解决。,第五节 SPSS统计分析软件的应用,双因素方查分析(无交互),双因素方查分析(有交互),第二章回归分析,变量间的关系:、确定性关系:变量间有完全确定的函数关系。、相关关系:变量间具有某种程度的依赖性,但又有某种不确定性,即不可能根据自变量的值将因变量的值完
14、全确定下来。如身高与体重、岩石的空隙率与渗透率、矿体埋深与晕的深度、成矿元素与伴生元素的关系等。,在工程实际中(尤其地质研究),各因素(变量)间大多是这种相关关系。、问题本身复杂;、影响因变量的因素多。回归分析:研究变量间统计相关关系的一种多元统计分析方法。,回归分析的概念,寻求有关联(相关)的变量之间的关系主要内容:从一组样本数据出发,确定这些变量间的定量关系式对这些关系式的可信度进行各种统计检验从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著利用求得的关系式进行预测和控制,回归分析的模型,按是否线性分:线性回归模型和非线性回归模型按自变量个数分:简单的一元回归,多元回归非线性
15、回归模型:Multinomial Logistic:多分变量逻辑回归Ordinal 序回归Probit:概率单位回归Nonlinear:非线性回归Weight Estimation:加权估计2-Stage Least squares:二段最小平方法Optimal Scaling 最优编码回归,回归分析可解决的问题:,、定量研究变量间的相关关系:根据观测数据用数学方法找出因变量对诸自变量的依赖关系,并用数学式表示出来,即建立回归方程。、检验变量相关的显著性。、对因变量进行预测。,第一节一元线性回归,由观测数据出发,研究两个变量的线性依赖关系。一、数学模型设X,Y间有线性依赖关系:由已知数据求出
16、的估计值 ,再略去随机因素的影响,得方程:,回归方程二、回归方程的求法(最小二乘法),三、回归方程的显著性检验,对任意观测数据,都可以建立起回归方程,若变量X、Y间的关系接近于线性,则方程有意义,否则无意义。 回归方程的显著性检验:检验线性回归方程多大程度上反映了变量X、Y间的真实关系。 1、离差平方和的分解:,剩余平方和 回归平方和 拟合度,2、F检验,拒绝假设;方程显著 接受假设;方程不显著,、相关系数检验法,拒绝假设,方程显著 接受假设,方程不显著,第三次,有时不建立回归方程,只计算相关系数。相关分析。但注意要进行显著性检验。四、利用回归方程预测:还可给出预测精度。,五、计算步骤,1、建
17、立回归方程,2、检验,拒绝假设;方程显著 接受假设;方程不显著,相关系数检验法,拒绝假设,方程显著 接受假设,方程不显著,3、利用回归方程预测:还可给出预测精度。,第二节一元非线性回归,当散点图不接近直线时,可考虑用一元曲线去表征X、Y的关系。-一元非线性回归 常用的一元曲线有以下几种:1、指数函数:,2、对数函数:,3、另一中指数函数:,4、幂函数:,5、多项式:用多元线性回归分析的方法求系数。非线性回归,首先根据散点图选择拟合函数,再转换成线性回归问题求回归系数。,第三节多元线性回归,研究一个因变量和多个自变量间的线性依赖关系。一、数学模型和回归方程的求法,由(2)得:代入(1)得:,二、
18、多元线性回归的显著性检验,拒绝假设,回归效果显著 接受假设,回归效果不显著,复相关系数:偏相关系数:,三、对各自变量的显著性检验(第四次),标准回归系数:对原始数据进行标准化处理后,建立回归方程,此时的回归系数变量标准回归系数。值的正负和大小,一定程度上反映与因变量的关系。,四、预测,由回归方程对因变量的值进行预测。,计算实例,某矽卡岩型白钨矿中钨(wo3)对铋(Bi)、钼(Mo)的线性依赖关系研究。,第四节逐步回归分析简介,一、基本思想一个好的回归方程,应包含尽量多的与因变量Y有关的自变量,尤其不能漏掉对Y有显著作用的变量;另一方面,方程中不宜包含与Y关系不大的自变量。否则不但增加计算量而且
19、对预测结果形成干扰。所以在建立方程时应对自变量进行筛选(地质认识、数学)。 逐步回归分析:在多元回归分析的基础上,增加了用数学方法筛选自变量的过程。一种算法上的改进。大致步骤:在所考虑多个自变量中,根据它们对Y的重要性的大小,逐个引进方程。随着变量的不断引入,先前引入方程的某个自变量可能会失去重要性,则要根据标准剔除。一直进行,直到已引入的变量不能剔除,未引入的变量不能引入为止。-最优方程。,逐步回归分析:是指从众多可供选择的自变量中筛选出对因变量y影响显著的变量xi(i=1,2,m),并确定y与xi之间相关关系的最优化回归方程的一种统计分析方法。,二、变量的引入与剔除标准偏回归平方和:,三、
20、算法实现求逐步回归方程最终归结为解线性方程组的问题。用的是求解求逆的并行方案。 回归分析中,样品数至少要大于变量的个数。,0、求出相关系数矩阵,第一步、选择第一个变量进入回归方程,考察所有自变量的方差贡献,取其中最大者,记为,即:,作F检验,若,则变量,对y的变化起着重要作用,引变量进入回归,方程,并按右边公式进行紧凑消元变换,得到相关增广矩阵 转入第二步,若,则变量,不能引入回归方程,回归就此结束,结果是方,程中没引入任何变量,第二步、当第一个变量已经选入方程,继续进行回归运算。,(1)首先检验进入回归方程的变量是否要剔除,由于回归方程中只有一个变量,并且是刚引入的,因此不可能立即被剔除,这
21、步检验省略,(2) 检验是否要选入变量,利用R(1)计算不在回归方程中的变量的方差贡献:,取其中最大者,记为,即:,若,则把变量,再引入回归方程,并对R(1)进行紧凑消元变换,得到新的增广矩阵R(2),若,则回归结束。由R(1)得到:,标准回归系数,标准化变量回归方程,剩余平方和,回归平方和,复相关系数,自由度,自由度,第三步 根据新得到R(2)做下一步回归运算,(1)首先检验已进入的变量有无要剔除的,第五节回归分析应用实例,解决问题:、研究变量间的相关关系;、预测。一、求某地黄河水中砷含量与悬浮性固体含量之间的关系。在黄河水系黑石关断面处取12个水样得到数据:(统一数量级较好),二、矿体剥蚀
22、深度预测,地质找矿中的两个重要问题:、评价地质体的含矿性;、评价矿体的剥蚀深度。评价矿体的剥蚀深度转换回归分析选择模型矿体,以标高为因变量,以垂向分带明显的元素或元素比值为自变量组织原始数据,建立回归方程。实现问题的转换。两江铜矿:六个矿带;其中一个有工程:,已知矿体下延500多米,采样点在浅部。对8号异常(CO、NI、MO)代入方程: Y=75米;3号异常:Y=-10米。,说明:从元素组合的角度看,号异常地表出露处,和已知矿体埋深90米左右处相当,说明8号矿体剥蚀程度较大,同理3号异常剥蚀程度较小,3号异常优于剥8号异常。本实例的问题是模型控制深度太浅。注意:模型区和预测区的相似性。,三、地
23、下水平均水位预测,研究地下水的水位和用水量的关系,控制用水量,为制定用水计划提供依据。河北某地对一年的月采水量和月平均水位进行了统计:,可根据上月水位和计划用水量预测本月的水位,控制用水量。变量中可考虑加入月降水量等与水位有关的因素。注意“转换”的思想。,四、在资源量估算及成矿预测中的应用,YOUR SITE HERE,实例安徽地区玢岩铁矿床矿石矿物为磁铁矿,YOUR SITE HERE,已知n=32p=2,未知m=7,x1 磁异常指数x2 闪长玢岩出露面积比值y 矿床经济价值(作对数变换)y 3.5 矿点 小矿 大中矿,UnitIDx1x2y60.958 0.010 0.778 121.45
24、6 24.200 2.204 140.001 0.010 0.477 201.861 36.250 4.007 212.301 0.750 0.477 272.045 6.250 5.385 283.057 35.210 5.636 310.612 0.010 0.477 331.513 7.000 0.477 352.000 22.700 5.763 361.468 7.250 3.992 370.001 0.010 0.477 430.783 0.570 0.477 451.301 73.000 5.467 462.672 24.200 5.035 473.250 75.200 3.464
25、 561.096 7.000 0.477 580.001 8.500 2.553 592.950 11.000 0.829 601.491 11.000 0.477 630.001 0.750 0.954 640.001 1.500 0.954 650.001 5.750 4.625 660.001 1.500 0.477 670.001 0.010 0.477 680.001 0.750 0.954 760.001 0.010 3.437 770.001 0.010 0.477 830.001 0.010 0.778 870.001 1.000 0.477 890.001 0.150 2.8
26、13 1000.001 0.010 0.477,UnitIDx1x2y291.602 0.001 300.001 0.001 340.001 0.750 441.021 0.001 482.672 34.500 491.740 0.001 511.491 22.000,YOUR SITE HERE,X1,y,y,X1,X2,X2,y,X2,X1,YOUR SITE HERE,y = 1.1921 + 0.3241*x1 + 0.0489*x2,yMean = 2.0572SST = 117.8631SSE = 73.2383SSR = SST-SSE = 44.6248,YOUR SITE H
27、ERE,y,X2,X1,YOUR SITE HERE,UnitIDx1x2yyfity-yfit60.958 0.010 0.778 1.503 -0.725 121.456 24.200 2.204 2.848 -0.644 140.001 0.010 0.477 1.193 -0.716 201.861 36.250 4.007 3.569 0.438 212.301 0.750 0.477 1.975 -1.498 272.045 6.250 5.385 2.161 3.224 283.057 35.210 5.636 3.906 1.731 310.612 0.010 0.477 1.
28、391 -0.914 331.513 7.000 0.477 2.025 -1.548 352.000 22.700 5.763 2.951 2.812 361.468 7.250 3.992 2.023 1.969 370.001 0.010 0.477 1.193 -0.716 430.783 0.570 0.477 1.474 -0.997 451.301 73.000 5.467 5.185 0.282 462.672 24.200 5.035 3.242 1.793 473.250 75.200 3.464 5.925 -2.461 561.096 7.000 0.477 1.890
29、 -1.413 580.001 8.500 2.553 1.608 0.945 592.950 11.000 0.829 2.686 -1.857 601.491 11.000 0.477 2.214 -1.737 630.001 0.750 0.954 1.229 -0.275 640.001 1.500 0.954 1.266 -0.312 650.001 5.750 4.625 1.474 3.151 660.001 1.500 0.477 1.266 -0.789 670.001 0.010 0.477 1.193 -0.716 680.001 0.750 0.954 1.229 -0
30、.275 760.001 0.010 3.437 1.193 2.244 770.001 0.010 0.477 1.193 -0.716 830.001 0.010 0.778 1.193 -0.415 870.001 1.000 0.477 1.241 -0.764 890.001 0.150 2.813 1.200 1.613 1000.001 0.010 0.477 1.193 -0.716,y,yfit,YOUR SITE HERE,F0.01(2,29)=5.42F0.05(2,29)=3.34F0.1(2,29)=2.49,R2 = SSR/SST = 0.3786 F = (S
31、SR/2)/(SSE/29) = 8.8350 p-value = 0.0010,= sqrt(SSE/29) = 1.5892,YOUR SITE HERE,YOUR SITE HERE,3.5,未知单元预测,预测临界回归估计值 = 2.5,已知单元8个,YOUR SITE HERE,本讲介绍的线性回归,仅仅是回归的一种,也是历史最悠久的一种。但是,任何模型都是某种近似;线性回归当然也不例外。它被长期广泛深入地研究主要是因为数学上相对简单。它已经成为其他回归的一个基础。应该用批判的眼光看待这些模型。,NOTES,第六节 SPSS统计分析软件的应用,第三章趋势分析,研究变量在空间上的变化规律的
32、一种多元统计分析方法。如观测某元素的含量:、区域性变化部分:受区域岩性和深大地质构造控制,反映指标的区域性分布规律。局部变化部分:受局部性地质因素控制,反映指标的局部性分布规律。、随机性变化部分:反映随机因素的影响,趋势面分析的基本方法思路:就是要对数据中所包含的趋势值、局部异常值和随机干扰值等三部分信息进行分析,排除随机干扰信息,找出区域性变化趋势,突出局部异常。,(第五次),趋势分析是用适当的数学曲面(趋势面)去拟合观测值,将观测值分成两部分:趋势值:反映区域性变化部分;剩余值:反映局部变化和随机性变化部分。趋势分析分为:一维趋势分析二维趋势分析三维趋势分析,趋势面方程。通常将趋势面方程表
33、示成观测点坐标的多项式多项式趋势分析。将趋势面方程表示成观测点坐标的调和函数调和趋势分析。,常见的各种趋势函数的数学关系和示意图,一、趋势面方程的求法,二、趋势面拟合程度检验,实例分析:有某油层18口井的钻井资料,其中某层的厚度变化如表4-3所示,求该层厚度变化的二次趋势面,并检验其显著性,作出其剩余分布图,指出正常场分布。,解:采用二次趋势面方程:,1、求出的趋势面系数满足的方程组,2、解得系数,3、计算剩余的平方和,4、计算统计量,拟合度,统计量,5、显著性检验,若取显著性水平,查F分布表,因此,在显著性水平,下,趋势面拟合是显著的。,三、趋势分析可解决的问题,1、拟合问题 要求方程拟合度
34、要高;2、分离区域异常和局部异常3、在化探异常处理中,常用趋势值作为异常下限圈定异常。(发现低背景下的异常),四、几点说明,1、测点要尽量分布均匀;测点少时方程的次数不宜过高。 2、剔除特高(低)值; 3、趋势分析的结果不能外推;回归分析可以外推。 4、滑动平均趋势分析。,5、剩余分析第i点的剩余值是原始观测值与趋势值之差,即: 地质变量的原始观测数据包含趋势值与剩余值两部分。趋势值反映区域性大范围内的变化情况,剩余值反映局部异常的变化特点,二者结合起来可以帮助人们深入的作地质分析。地质构造观测数据拟合求取的趋势面图反映区域构造背景,剩余图则反映在这一背景下的局部异常,从中可以发现低缓异常带。
35、剩余图零值线的区域走向往往反映了区域断裂的分布。趋势面拟合物探资料和地球化学指标时,利用剩余图可以找出异常带,这些异常带往往与特定的地质条件,特别是与许多成矿条件(比如生油、储油条件等)有关。,正剩余、异常分量与异常分布图,剩余值并非完全等于局部异常,它是局部异常分量ui与随机分量vi之和。即:,一般要从剩余值中减去随机分量vi,将所有正剩余的平均值作为随机分量:,各点的异常分量ui是各点的剩余值减去该点的随机分量vi。从正剩余中去掉vi ,就可以得出该点的异常分量ui,,第四章 聚类分析(第六次),根据多个指标对研究对象进行数字分类的一种多元统计分析方法。原始数据的形式:,型聚类分析:根据变
36、量在各样品上的观测值对变量进行分类。型聚类分析:根据样品在各变量上的取值对样品进行分类。基本思想:将变量(或样品)看成多维空间中的点,根据变量点(或样品点)在空间上的亲疏关系实现定量分类。,第一节原始数据的预处理,目的:使各变量统一量纲。一、标准化处理,性质: 、变量的均值为0, 方差为1。,2、相关系数不变,二、正规化处理,性质: Q型聚类分析多用这种处理。,第二节 相似性统计量,聚类分析是根据变量(样品)间的相似程度实现对变量(样品)分类的。为衡量变量(样品)间的相似程度一般采用如下几种统计量。一、相似系数考虑对样品分类,每个样品可看成维变量空间的向量,两样品向量的夹角余弦相似系数。,相似
37、系数阵中包含样品是否相似的信息。,类似的考虑,也可形成变量间的相似阵:通常习惯于用相似系数做型聚类分析。,二、相关系数,在型聚类分析中,通常用相关系数度量变量间的相似性:矩阵中包含变量是否相似的信息,构成了型聚类分析的基础。,三、距离系数,为了度量样品间的差异,用两样品点在M维变量空间的欧氏距离:,各种系数的图示,第三节分类谱系图的建立,在相似性矩阵中,包含研究对象是否相似的信息,构成了分类的基础,但不直观。谱系图:在相似性矩阵的基础上,作出直观反应分类结果的二维图。、一次计算成图法、逐次计算成图法,形成原则(1)若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组。(2)若选
38、出的一对样品中,有一个出现在已经分好的组里,则把另一个样品也加入到该组中去。(3)若选出两个样品,它们分别出现在已经分好的两个组中,则把这两个组联在一起。(4)若选出的一对样品都出现在同一组中,则这对样品就不再分组了。,第四节聚类分析的计算方法和步骤,一、原始数据准备(鄂东某地七个岩体),二、对原始数据进行预处理型:标准化型:正规准化三、形成相似阵型:相关系数,型:距离系数;相似系数,四、形成谱系图,、一次计算成图法:连图表,如果用相似系数、相关系数为统计量时,应由大到小进行连图。一次计算成图法较简单,但结果粗躁。聚类分析是动态分类。,2、逐次计算成图法(第七次),1)选出相似性最大的变量(样
39、品)对合成一类。2)将合并的变量(样品)看成一个变量(样品)重新组织原始数据、计算相似阵。 3)重复1)、2)步,直到所有对象合并成一类为止。,根据连图表作出谱系图,结果和一次计算结果类似。 R型:合并变量。五、对分类结果给出解释。,R型聚类分析计算实例,某火山岩型金矿区主要成矿成岩元素的聚类分析在该矿区采集标本6快,分别测定Cr、Ni、Sr、Au、Cu、S的含量。使用聚类分析对变量进行分类,研究金矿化过程中,元素的地球化学分类特征及其地质意义,(AuCu) 、S=2 (Au、Cu)+ S/3,(Ni Sr)、 Cr = 2 (Ni、Sr)+ Cr/3,在R=0.75水平,变量分为两类:Au、
40、 Cu、S为一类,为主要矿化元素; Cr、Ni、 Sr为一类,为火山岩中的微量元素,代表火山岩成分。,第五节 离差平方和法(Q型的一种算法),原理:如果若干个样品合并后,离差平方和的增量较小,说明样品点较集中,可以分成一类;若离差平方和的增量较大,说明样品点较分散,不能分成一类。,形成各样品间的离差平方和增量阵,形成各样品间的离差平方和增量阵,第六节 有序样品的聚类(最优分割)(第八次 ),许多地质数据是有序的 ,这些按一定顺序排列的地质样品 ,叫做有序的地质样品 。如沿地层剖面采集的样品;钻孔中取出的岩心样品;蚀变带的研究中 ,从岩体中心到围岩的蚀变剖面的样品等等 ,它们都是有序地质变量。这
41、类数据的特点是样品的前后次序不能变更。所以 ,一些不考虑样品排列顺序的数学处理方法 ,对此不适用。 有序样品的聚类分析就是对有序样品进行分段的统计方法。,第六节 有序样品的聚类(最优分割),对 n个有序样品进行分割 , 有多种划分方法 ,每一种分法称为一种分割。在所有这些分割中 ,有一种分割使得各段内部样品之间差异性最小 ,而段与段之间的差异性最大。这种对 n个样品分段并使组内离差平方和最小的分割方法 ,称为最优分割法。,最优分割在地质研究中是一个非常有用的手段 ,只要地质体的某些地球化学特征存在规律性的差异 ,采用最优分割的数学处理方法 ,就能按顺序在最理想的地方进行分段。通过对地层中采集的
42、具某些地球化学特征样品的最优分割 ,能在地层的划分对比中发挥重要的辅助作用;在找矿过程中 ,该方法更显得天独厚的优势 ,它能进行蚀变、矿化及矿体的准确分带.,第六节 有序样品的聚类,一、最优分割,把n个有序样品分为k组,有多种分法,其中分后各组内样品差异最小,而各组之间差异最大的的分法称为最优k分割法,相应的结果称为最优k分割。,求出总的离差平方和:I,J段的段内离差平方和,第一段,第二段,第k段,段间离差平方和:,S为总离差平方和,段内离差平方和,段间离差平方和,对于给定的有序数列,S是个确定的值,因此,若使段内离差平方和S1为最小,则段间离差平方和S2必为最大。由此看来,使段内离差平方和为
43、最小的分割法就是最优分割法。,二、最优分割实现,最优二分割,最优三分割,最优两段分割点,S1=0;s=0;j=1For i=1;i=n-1 S1=s s=d(1,i)+ d(i+1,n) if s=s1 j=i ,最优三段分割点,S1=0;s=0;For i=1;i=n-1if i=j i=i+1 S1=sif ij s=d(1,i)+ d(i+1,j) )+ d(j+1,n) else s=d(1,j)+ d(j+1,i) )+ d(i+1,n) if s=s1 k=i ,二、最优分割的计算步骤,1、数据正规化,2、计算段内变差矩阵,3、最优二分割、三分割、四分割,三、实例分析,多元有序地质数据的最优分割法在工程中的应用,王生全 , 唐亦川 , 薛喜成(西安科技学院 地质与环境工程系 ,陕西 西安 710054) 摘 要: 采用数学地质理论中的多元有序地质数据的最优分割方法对工程场地松散岩土层亚层进行了划分。实践证明 ,在土样物理力学性能评价指标选取合理的前提下 ,该方法简单方便 ,行之有效 ,可作为一种辅助手段帮助地质人员开展对土层的详细研究。,