1、决策树技术在成矿预测中的应用以新疆中天山沙垄以西铅锌矿远景区优选为例第 28 卷第 1 期2008 年 2 月桂林工学院JournalofGuilinUniversityofTechnologyVo1.28No.1Feb.2008文苹编号:1006544X(2008)01001505决策树技术在成矿预测中的应用以新疆中天山沙垄以西铅锌矿远景区优选为例高景刚 la,lb,高云霞 h,高凤亮,梁婷,胡长安,王晓虎(1.长安大学 a.信息工程学院 ;b.地球科学与国土资源学院,西安 7】0054;2.新疆地质矿产开发局第一地质大队.新疆昌吉 831100)摘要:选取新疆中天山沙垄以西地区开展铅锌矿成
2、矿预测研究 ,将决策树技术引入到成矿预测中.通过区域成矿规律分析,选取不同构造单元中数据较为完整,具有代表性的典型矿床,建立综合信息预测模型,采用决策树技术中的 ID3 算法构建决策树,在 ERDASIMAGING8.7 平台上建立分类决策树,开展铅锌远景区预测.经野外验证,预测区与已知矿化区吻合度较高,证实该方法在成矿预测中是可行的.关键词:铅锌矿;成矿预测;决策树;新疆中图分类号:P612;P208 文献标志码 :A随着计算机技术的发展,基于 GIS 的地质,物化探,遥感等综合分析技术已经成为成矿预测的主流,而且开发了基于不同软件平台的矿产资源评价系统,如金属矿产资源评价分析系统(MORP
3、AS),综合信息矿产资源预测系统(KCYC)以及矿产资源评价系统(MARS)等,并且在不同地区开展了卓有成效的预测.但这些多采用数据驱动的经验方法,在已知矿点或矿化点较少的情况下,不适合使用,因此只能采用简单分级或知识分类法.而决策树技术是一种基于 IFTHEN 形式的知识分类,变量可以采用多态处理,可以通过对研究区成矿地质背景,区域地球化学,物探等资料的综合分析,总结成矿规律,选取不同构造单元中数据较为完整,具有代表性的典型矿床,建立综合信息预测模型,利用这些矿床作为学习区域,通过学习,把这种模型转化为一定的规则,根据这些规则在研究区内进一步选定远景区.本文在综合分析区内成矿规律的基础上,将
4、筛选出的 9 个矿床(点)分为 3 个类别作为学习模型,采用决策树技术中的 ID3 算法构建决策树,开展铅锌远景区预测,取得了较好效果.1 区域地质与矿产预测区(图 1)位于哈萨克斯坦板块与塔里木板块接合部位,以那拉提一红柳河缝合线为界,北侧属于哈萨克斯坦一准噶尔板块,以南为塔里木图 1 中天山地区板块构造分区与铅锌矿分布略图Fig.1Sketchmapofplatetectonicsandlead-zincdepositdistributioninmiddleTianshanMountainarea:一觉罗塔格晚古生代沟弧带;一巴仑台一星星峡离散地体;一艾尔宾晚古生代残余盆地;6_J 一库鲁
5、克塔格太古代隆起;一巴勒衮震旦纪陆内裂陷槽;一库鲁克塔格陆缘地块南部早古生代拗陷;一北山裂谷系;一塔里木中央地块;F 一阿奇克库都克断裂;F2 一卡瓦布拉克断裂;F,一辛格尔大断裂;Fd 一兴地大断裂;一一赛里克沙依大断裂 ;l 一那拉提一红柳河缝合带;2 一多金属矿 3 一铁锌矿;4 一铅锌矿收稿日期:200707l8基金项目:中国地质调查局项目(200420190004);新疆地质矿产勘查开发局项目(XGMB2004001)作者简介:高景刚(1974 一),男,博士研究生,讲师,研究方向:矿产资源评价及预测工作.16 桂林工学院 2008一华北板块.区内断裂构造极其发育,大致可分为近东西向
6、,北西向,北东向 3 组构造.其中近东西走向的阿其克库都克大断裂形成较早,由一系列大致平行的断层和挤压带构成,为本区成矿带的导岩导矿构造,与其他各大断裂控制三级构造的展布.沿断裂带侵入岩广泛发育,岩性从基性到酸性都有出露,以中酸性为主,侵入时代以华力西期为主.地层从太古代,元古代至新生代均有出露,岩性组合也较为复杂.研究区已经发现铅锌,铁锌,多金属等矿床(点),矿化点共计 11 处,矿床类型较为复杂,包括中低温热液型,矽卡岩型和韧性剪切带型.其中彩霞山铅锌矿床达到大型规模(表 1).表 1 研究区已知铅锌矿床(点),多金属矿床(点) 特征Table1Propertiesofleadzincde
7、posits(orespots)andpolymetallicoredeposits(orespots)insurvey2ID3 算法简介 jID3 算法是 1986 年由 Quinlan 提出的一种基于信息熵的决策树学习算法,他把信息论引入到了决策树算法中,把信息熵作为选择测试属性的标准,对训练实例集进行分类,并构造决策树来预测如何由测试屙 j 生对整个实例空间进行划分.设训练实例集为 5,学习目的是将训练实例分为 n 类,记为5.,5,5, 设第 n 类的训练实例个数是 l5l,5 中总的训练实例个数为 l5l,记一个实例属于第 i 类的概率为 P(S),则有P(5)=l5l/l5l.(1
8、)如果目标属性具有 c 个不同的值 ,那么 5 相对于 c 个状态的分类的熵定义为E(S)=一P(S)logzP(S).(2)用熵作为衡量训练样集合纯度的标准,但从直观上不能确定集合中哪个消息是所期望得到的.因此 ID3 算法中,用于决定下面用什么属性进行分支的启发式,是选择能够获得最多信息的测试,即信息增益.在一个集合 5 上执行一个属性测试所获得的信息增益定义为G(T)=E(S)一 E(S),(3)E(5)=E(S).(4)VVals(其中:E(5)是原集合 5 的熵;E(S) 是用分类 5 后的熵的期望值.Values(T) 是属性所有可能值的集合;S 是属性的值为的子集.G(T)是由于
9、知道属性的值而导致的期望熵减少.这样的启发式有时候也被称作“最小熵“,因为信息增益最大对应着不确定性或者混乱程度最小.3 区域成矿预测3.1 变量选取对表 1 中所列出的矿床(点),矿化点,为了使用决策树算法,对作为学习样的已知矿床(点)和地质,构造,化探等变量作如下的取舍:1)对于已知矿床( 点),表 1 中列出的“原20 万编号 91“,“原 20 万编号 132“两个矿化点,缺失化探资料(未采样), 代表性较差,故舍去.2)对于大地构造单元变量,因其在空间上的分布不均匀性和割裂性,不作为变量.3)考虑到典型矿床的成因和找矿标志,如彩霞山铅锌矿与岩体,深大断裂,岩浆侵入以及沉积建造等因素密
10、切相关,所以在计算时,对这些第 1 期高景刚等:决策树技术在成矿预测中的应用 17因素做适当的变换处理后加以选择使用.4)对于地球化学元素,为了消除图幅间系统误差,在不影响数字分布特征的前提下,将数据以图幅为单位进行了归一化处理.聚类分析获得 3个组合,即 cu,c0,Ni,cr,Fe,V,Ti 组合,w,Sn 组合和 Au,Ag,As,Sb,Hg,Pb 组合这3 个变量.为方便描述,分别把这 3 个组合命名为cu 组合,wsn 组合和 Au 组合,并以平均值和标准差对这 3 个组合作进一步的类别划分.5)根据矿床 (点 )产出的地质背景,地球化学及规模,将学习区域分为 3 类,即 A 类,B
11、 类和 c 类远景区 .A 类远景区存在铅锌矿床(点),有明显的铅和锌异常,Au 组合异常较高;B 类远景区存在铅锌或多金属矿点,有明显铅或锌异常;c 类远景区存在矿化点 ,有铅或锌异常 .综合上述,将变量以及学习样的选取结果列于表 2.,3.2 决策树构建按照 ID3 算法来构建决策树,需要先找出哪一个变量是根节点变量,在找出根节点变量的基础上,进而以这一根节点所划分出的类别为条件,寻找其它变量来作为下一级节点.寻找每一级节点的过程就是找到所有剩余变量中信息增益最大者的过程.为此需要循环计算,直至所有变量均被插人树中.表 3 是针对表 2 所选择出来的变量信息增益计算数据及结果.表 2 决策
12、树方法铅锌及多金属矿床预测变量选取结果Table2Variableselectionresultoflead-zincandpolymetallicoredeposiforecastbydecision-makingtreemethod说明:对于 Pb,Zn 异常,以异常下限为临界值进行二值化,落在异常范围内为 T,反之为 F;对于深大断裂缓冲区,缓冲区半径为 8.5km,落在缓冲区范围内为 T,反之为 F;对于侵入岩体,缓冲区半径为 3km,落在缓冲区范围内为 T,反之为 F在表 3 中,表示在某一变量中各分类类别中存在的学习样的个数;N(A),N(B),N(C)分别表示在这一类别中属于 A
13、 类,B 类或 C 类预测区的学习样的个数;E(S)为变量分类的信息熵;G(T) 为每一变量的信息增益.计算结果表明,在选择出的沉积建造,岩体边界,断层缓冲区以及化探各组合异常等 7 个变量中,沉积建造的信息增益最大(G()=1.086),也即沉积建造这一因素是作为类别划分的最佳因素.因此以此变量作为根节点.沉积建造变量有 5 个状态,其中 2 个状态与远景区类别有对应关系,可直接用于分类识别,因而各自连接到一个叶节点;另外 3 个状态都不能单独区分远景区类别,需进一步利用其它变量的信息.因此选择其它变量作为新的节点,分别连接成树枝.表 3 铅锌及多金属矿床预测样例统计及信息熵Table3Ex
14、amplestatisticsandifformationenopyofleadzincandpolymetallicoredepositforecast中基性火山岩建造 1类薹妻造变质碎屑岩建造 2680l00000000000101118 桂林工学院 2008 芷1)对于碳酸盐岩建造,其信息熵 E(S)=1,对应于远景区类别为 A,B 两类,在这一条件下,其他各变量的统计和计算结果如表 4.表中,Au 组合,Pb 异常,zn 异常这 3 个变量均有两个类别;而在“ 碳酸盐岩建造“ 这一条件下 ,对应的远景区类别也为两类,所以这 3 个变量中各分类的信息熵为 0,而信息增益为 1;对于断层缓
15、冲区,岩体边界和 WSn 组合这 3 个变量 ,内部分类仅有一类 ,对应着两个预测远景区级别,因此其信息熵为 1,信息增益为0.按照 ID3 算法的基本规则,对于信息增益为 0的变量作为并列条件考虑;对于信息增益为 1 的变量,即是有二分性的变量,对于本计算,两个样例一个对应于 A 类,一个对应于 B 类.表 4 沉积建造各类别中其他变量样例统计及信息熵Table4Otherexamplestatisticsandinformationentropyofsedimentaryformation沉积建造=碳酸盐岩建造类别=(A,B),E(S)=1注:表币 N,(A), (B), (c),E(s)
16、,G()代表意义与表 3 相同2)同理 ,参照上述步骤完成类复理石建造,变质碎屑岩建造中其他变量样例的信息熵统计(表略).通过上述计算,在除沉积建造外的其他变量中,在每一变量的各分类存在的条件下,其他变量对结果(远景区的级别) 已经不再具有划分意义,故计算完毕.依照计算结果建立的决策树如图 2 所示.3.3 远景区优选本文在 ERDASIMAGING8.7 平台上建立分类决策树.为了保证数据的统一,将上述变量数据统一采用 2km2km 网格间距栅格化,统一坐标体系.完成基于决策树技术的远景区优选.预测计算结果见图 3.可以看出,远景区主要分布在巴仑台一星星峡离散地体和库鲁克塔格陆缘地块内,与区
17、域成矿规律是吻合的.同时 A 类远景区主要位于彩霞山矿区及外围,黄龙山矿区及外围,以及巴勒衮一带.通过野外验证,预测区与已知矿化区具有相似的成矿地质条件,预示该区具有良好的成矿潜力.通过成矿条件分析,B 类远景区与铅,锌异常的空间分布吻合性较好,受区域断裂控制,有进一步找矿潜力.4 讨论当前积累了大量的地质,物探,化探,遥感等数据,这些存储在各种数据媒介中的海量的地物化遥数据,由于缺乏有效的技术处理手段,已远远超出了人们的理解和概括能力.因此采用强有力的工具和计算方法,从海量数据中获取我们想要的知识,是今后矿产预测评价面临的一个重要任务.本文将数据挖掘技术引入到成矿预测评价中,从实际应用效果看
18、,该方法是可行的,而且具有变量可采用多态处理,适合非数值型运算等优势.但是决策树方法本身也存在不稳定的缺点,因此在运用决策树开展成矿预测过程中,样例集合大小,变量及分类数量,节点数目等对于预测结果的影响还有待深入研究.图 2PbZn 成矿远景区预测分类决策树Fig.2Classificationdecisionmakingtreeofleadzincoredepositmetallogenicpotentialforecast第 1 期高景刚等:决策树技术在成矿预测中的应用 19图 3 基于决策树的 PbZn 矿床远景区预测优选结果示意图Fig.3Preferredresultschemati
19、cdrawingofPbZnoredepositpotentialforecastbasedondecisionmakingtree参考文献:1赵鹏大,陈永清 ,刘吉.地质异常成矿预测理论与实践M.武汉 :中国地质大学出版社,1999.2赵鹏大.定量地学方法及应用M.北京:高等教育出版社,2003.3赵鹏大,陈建平 ,张寿庭.“三联式“成矿预测新进展J.地学前缘,2003,10(2):455 463.4徐善法,陈建平 ,叶继华.证据权法在三江北段铜金矿床成矿预测中的应用研究J.地质与勘探,2OO6,42(2):5459.5张峰,张桂林 ,郭晓东,等.基于 GIS 的云南哀牢山成矿带南段铜矿资源
20、预测J.桂林工学院,2006,26(2):172176.6王世称,王於天 .综合信息解译原理与矿产预测图编制方法M. 长春:吉林大学出版社,1989.7消克炎,张晓华 ,王四龙,等.矿产资源 GIS 评价系统M.北京 :地质出版社,2000.8杨学善,秦德先 ,陈耀光,等.地理信息系统(GIS)支撑下的综合信息成矿预测以云南易门铜矿区为例J.地质与勘探,2004,40(2):7176.9QuinlanJR.InductionofdecisiontreeJ.MachineLeaming,1986,1(1):81106.10DurkinJ,蔡竟峰 ,蔡自兴 .决策树技术及其当前研究方向J. 控制工
21、程,2005,12(1):1519.ApplicationofDecision-MakingTreeTechnologyinMetallogenicPredicationLeadzincoreprospectivepreferenceinwestShalonginTianshanMountainsofXinjiangGAOJing.gang,GAOYun.xia,GAOFeng.1iang,LIANGTing,HUChang.an,WANGXiaohu(1.a.SchoolofInformationEngineering;b.SchoolofEarthScienceandResources,ChanganUniversity,Xian710054,China;2.No.1GeologicalParty,XinjiangBureauofGeologyandMineralExpl