收藏 分享(赏)

数据挖掘在银行业中的应用(正文) (终极版)new.doc

上传人:dreamzhangning 文档编号:2691184 上传时间:2018-09-25 格式:DOC 页数:14 大小:506.79KB
下载 相关 举报
数据挖掘在银行业中的应用(正文) (终极版)new.doc_第1页
第1页 / 共14页
数据挖掘在银行业中的应用(正文) (终极版)new.doc_第2页
第2页 / 共14页
数据挖掘在银行业中的应用(正文) (终极版)new.doc_第3页
第3页 / 共14页
数据挖掘在银行业中的应用(正文) (终极版)new.doc_第4页
第4页 / 共14页
数据挖掘在银行业中的应用(正文) (终极版)new.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、数据挖掘在银行业中的应用摘要银行为人们提供了越来越多的人性化服务, 因而银行的数据也在迅速膨胀, 这些数据背后隐藏了大量有价值的信息, 银行要在金融领域里的竞争中处于不败之地必须利用这些信息。数据挖掘正是从海量数据中提取有用信息的一种有效工具,数据挖掘在银行业中扮演着无可替代的作用。关键词:数据挖掘 银行业AbstractThe bank provides people with the humanized service more and more, so the bank data also in rapid expansion, these data are hidden behind

2、a lot of valuable information, banks in the financial field competition in an invincible position must use these information. Data mining is an effective tool to extract useful information from the huge data,data mining plays an irreplaceable role in the banking industry.Keywords: data mining, banki

3、ng1.引言1.1.性说明本文所涉及到的研究领域银行信息化的迅速发展,产生了大量的业务数据。从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域。汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。如今,数据挖掘已在银行业有了广泛深入的应用。本文主要研究的领域是数据仓库,数据挖掘,联机分析处理技术,以及贝式网络。1. 数据仓库:数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改

4、进和监视时间、成本、质量和控制。12. 数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库 ,由数据仓库之父比尔恩门于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以

5、利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。3. OLAP 联机分析处理:简写为 OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。联机分析处理(OL

6、AP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。4. 数据挖掘:数据挖掘(Data mining) ,又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计

7、、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。5. 贝叶斯网络:贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络(Bayesian network)是为了解决不定性和不完整性问题而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很大的优势,在多个领域中获得广泛应用。1.2.设计工作的背景:大数据时代,对于商业银行而言,在不断完善计算机应用系统底层数据库群、操作数据存储、

8、主数据存储、企业级数据仓库、数据集市等建设的基础上,网络爬虫、Hadoop、MapReduce、NoSQL、Lucene 等技术拓宽了银行的数据掌控能力。当前,银行无论面对内部数据还是外部数据、结构性数据亦或非结构性数据,数据的产生、捕获、整合、存储、访问等技术均已日渐成熟。与此同时,数据的价值也随着数据生命周期的不断延伸而大幅提升。为实现数据价值的最大化,银行还需要对所积累的各类数据展开全面分析,深入挖掘和钻取数据,从中提炼出埋藏于数据深处的规律和趋势,全面运用于银行战略决策与业务发展。目前,商业银行已将数据挖掘定位于发展大数据战略的核心驱动力,是大数据信息化建设的重中之重。随着大数据时代的

9、到来,数据的价值得到进一步提升,银行决策管理人员将不再满足于采用数据对经验决策进行验证的简单模式,基于数据的决策行为将从“被动”转向“主动” ,主要体现于两方面:一是数据在业务分析上的作用从“数据验证”向“数据启发”提升;二是数据在业务应用上的作用从 “事后快速响应”向“事前精准预测”提升。银行对自身数据分析能力提出了更高要求。 为实现业务上的“精耕细作” ,银行首先应对客户市场进行科学细分,推进建立以客户价值评估为基础的客户分类体系,并辅以客户行业归属、区域归属、产品偏好、渠道偏好、风险偏好、价格偏好等分析内容,面向不同主题,充分实现客户层面的“人以群分” 。银行要深入分析客户信息,重点关注

10、客户价值的形成原因和驱动因素,准确识别未来存在价值提升可能性的客户,并同时对存在流失风险的客户进行预警。通过客户产品关联销售、产品响应预测、渠道响应预测等分析应用,为银行开展客户名单制营销、实行差异化服务提供依据。面向客户违约风险,银行同样要从客户信息入手,构建客户信用评分模型,尽早对存在违约风险的客户进行预警,为银行资产保全提供“第一手”信息。通过科学的客户分类支持银行形成差异化的定价模型和成本管理策略,充分考量客户满意度、提升客户忠诚度,与客户携手实现共赢。在银行精细化管理架构下,业务发展的“规划先行”是要考虑如何把握合适的时机、选择合适的客户、推介合适的产品、采用合适的渠道、委派合适的人

11、员,为客户提供最优质、贴心的金融(与非金融)服务;要考虑如何在有效把控风险的同时,以最低的成本、以银行与客户均感到满意的价格实现双方价值的最大化;要实现银行资源的差异化配置以及客户的个性化服务。本文将对数据挖掘在银行业应用中的一个题进行解决。预测贷款逾期者(风险管理):某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率,以作为是否核贷的依据,或提供给客户其他类型的贷款产品。Predicting Loan Defaulters: Suppose a bank is concerned about the potential for loans not to be

12、repaid. If previous loan default data can be used to predict which potential customers are liable to have problems repaying loans, these “bad risk” customers can either be declined a loan or offered alternative products.1.3 设计工作的目的和意义本文主要阐述了数据挖掘在银行业的一个应用即某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率。研究此

13、信息的目的是,以此作为是否核贷的依据,或提供给客户其他类型的贷款产品。这样是银行信息化发展的一个具体的反映,银行的信息化建设一直处于业内领先水平,不仅具有国际领先的金融信息技术平台,建成了由自助银行、电话银行、手机银行和网上银行构成的电子银行立体服务体系,而且以信息化的大手笔数据集中工程在业内独领风骚。另外,商业银行面临的风险问题,可分成三个最基本的方面。他们有信贷方面的风险,比如说潜在的坏账;他们还要面临流动性的风险,这会涉及到资产和债务的不匹配;另外他们还要应对操作的风险,如虚假个人消费贷款、关联企业骗贷、票据诈骗等等。此系统工作的目的正是加强了银行的风险管理能力,使信贷方面的风险大大降低

14、。银行信贷风险是指由于各种不确定性因素的影响,在银行的经营与管理过程中,实际收益结果与预期收益目标发生背离,有遭受资产损失的可能性。信贷风险是指借款企业因各种原因不能按时归还信贷本息而使银行资金遭受损失的可能性。银行信贷业务中占比重大的是信贷业务,信贷具有风险较高、收益突出的特点,对整个银行的经营举足轻重。2.问题定义与分析2.1 报告所研究的具体问题的定义本文所研究的主要问题是,银行用户数据仓库的建立,并利用联机分析处理技术对其数据进行分析处理操作,利用数据挖掘技术基于以往用户的信贷数据来预测新的贷款者,核贷后会逾期的机率。以此作为是否核贷的依据,或提供给客户其他类型的贷款产品。2.2 问题

15、的内涵与边界本文所研究问题的边界主要包括:银行用户信贷数据数据仓库的建立,基于联机分析处理技术,数据挖掘技术,以及贝叶斯网络。2.3 问题的特征与属性商业银行信贷管理,从广义上理解包括:制定和实施信贷政策,建立和健全内部授权授信制度,制定、贯彻和执行信贷操作程序,以及建立信贷风险监测和控制机制等诸多相互协调、制约的制度系统及其对制度执行效果的监督系统。狭义上的商业银行信贷管理仅指贷款发放前的调查工作、贷款存续期间的管理工作以及贷款出现风险后的监督、控制和处理工作。本文采纳狭义的商业银行信贷管理概念,在分析当前商业银行信贷管理中存在的问题的基础上,试图提出解决这一问题的基本思路和实际操作对策。通

16、过数据库的建立、管理和维护可以提高银行应对风险的能力。建立一个好的数据库对业务发展的良好推动作用和在操作风险防范中能起到的指导作用。个人信息的数据库,它还应当包括提前还款、违约风险、操作风险等多方面的数据信息。没有这些全面的数据信息,就无法通过数学模型对个人,住房信贷面临的风险进行全面的分析和了解,也无法制订出最终行之有效的政策。前危害很大的假按揭一个好的操作风险防范手段,是建立防范假按揭发生的数据库,收集大量的案例进行统计分析,提取出高度相关的因素,方便在具体操作中对假按揭进行防范。2.4 解决问题的重点和难点本文主要针对已收集到的海量信贷数据建立数据仓库进行存储管理维护,并利用数据挖掘,把

17、海量的数据经过处理变为清晰、的有用信息。利用贝叶斯算法对已经得到的信息进行推理计算概率,消除不确定性,使决策更加科学。重点有三:1.数据挖掘。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。通常所说的数据挖掘会通过这些任务中的一个或者多个来对数据进行处理。2.对数据进行进一步的分析即联机分析处理。联机分析处理有三种不同的实现方法: 关系型联机分析处理(ROLAP,Relational OLAP) 多维联机分析处理(MOLAP, Multi-Dimensional OLAP) 前端展示联机分析处理(Desktop OLAP)其中,前端展示联机分析需要将所有数据下载到客户

18、机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。该方式比较灵活,然而它能够支持的数据量非常有限,严重地影响了使用的范围和效率。因此,随着时间的推移,这种方式已退居次要地位,在此不作讨论。3.贝叶斯算法,根据已经得到的数据特征选择最优的贝叶斯算法。贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Nave Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。主要有两种贝叶斯算法朴素贝叶斯算法和 TAN 算法( 树增强型朴素贝叶斯算法)难点主要

19、是联机分析处理和贝叶斯网络技术部分。2.5 解决问题的技术领域与技术路线需要解决的问题 技术领域 技术路线建立数据仓库 数据仓库 现有银行业务系统和大量业务数据的积累为基础,经过数据预处理建立数据仓库对数据进行挖掘 数据挖掘 利用关联规则,聚类,分类等数据挖掘技术进行数据挖掘对数据进一步分析联机分析处理对数据进行深度分析即通过度量,切片或切块,钻取等手段对数据进行多维度考量。评定用户信用并作出决策贝叶斯网络 对于已经经过处理的数据分析并得到信息,利用贝叶斯算法,消除不确定性,增强决策的科学性。3.参考文献综述参考文献1数据仓库的概念及技术解决方案 数据智能网引用日期 2013-05-14抽取,

20、清理装载,刷新4.设计方案总体描述4.1 方案综述外部数据业务数据源系统文档资料贝叶斯算法数据仓库管理系统元数据管理数据仓库监测与维护数 据 集 市数据分析数据报表数据挖掘联机分析处理作出决策4.2 解决问题的方法与方案比较的选择4.2.1 数据仓库的建立1)收集和分析业务需求2)建立数据模型和数据仓库的物理设计 3)定义数据源4)选择数据仓库技术和平台5)从操作型数据库中抽取、净化、和转换数据到数据仓库6)选择访问和报表工具 7)选择数据库连接软件8)选择数据分析和数据展示软件9)更新数据仓库数据转换工具要求:1)数据转换工具要能从各种不同的数据源中读取数据。2)支持平面文件、索引文件、和

21、legacy DBMS。3)能以不同类型数据源为输入整合数据。4)具有规范的数据访问接口5)最好具有从数据字典中读取数据的能力6)工具生成的代码必须是在开发环境中可维护的7)能只抽取满足指定条件的数据,和源数据的指定部分8)能在抽取中进行数据类型转换和字符集转换9)能在抽取的过程中计算生成衍生字段10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件11)必须对软件供应商的生命力和产品支持能力进行仔细评估4.2.2 数据挖掘的方法与方案数据挖掘技术主要有三种,即关联分析,分类分析,聚类分析。每种技术又有不同的算法具体如下:关联分析算法(1)Apriori 算法Apri

22、ori 算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最著名的关联规则挖掘算法之一。Apriori 算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,找出频繁 1项集的集合记做 L1,L1 用于找出频繁 2项集的集合 L2,再用于找出 L3,如此下去,直到不能找到频繁 k项集。找每个 L k 需要扫描一次数据库。为提高按层次搜索并产生相应频繁项集的处理效率,Apriori 算法利用了一个重要性质,并应用 Apriori 性质来帮助有效缩小频繁项集的搜索空间。(2)FP-growth 算法 由于 Apriori 方法的固

23、有缺陷即使进行了优化,其效率也仍然不能令人满意。2000 年,Han Jia wei 等人提出了基于频繁模式树(Frequent Pattern Tree,简称为 FP-tree)的发现频繁模式的算法 FP-growth。在 FP-growth 算法中,通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到FPtree 中。在以后发现频繁模式的过程中,不需要再扫描事务数据库,而仅在 FP-Tree 中进行查找即可,并通过递归调用 FP-growth 的方法来直接产生频繁模式,因此在整个发现过程中也不需产生候选模式。该算法克服了 Apriori 算法中存在的问颢在执行效率上也

24、明显好于 Apriori 算法。分类分析的算法(1)决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法 ID3, C4.5和 C5.0 生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种。(2

25、)邻近算法或者说 K 最近邻(kNN,k-NearestNeighbor)分类算法可以说是整个数据挖掘分类技术中最简单的方法了。所谓 K 最近邻,就是 k 个最近的邻居的意思,说的是每个样本都可以用她最接近的 k 个邻居来代表。K N N 算法的核心思想是如果一个样本在特征空间中的 k 个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 K N N 方法在类别决策时,只与极少量的相邻样本有关。由于 k N N 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定

26、所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,k N N 方法较其他方法更为适合。(3)支持向量机 SVM(Support Vector Machine)SVM 的主要思想可以概括为两点:它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。(4)神经网络神经网络是通过对人脑的基本单元神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是

27、它能够从环境中学习,并把学习的结果分布存储于网络的突触连接中。神经网络的学习是一个过程,在其所处环境的激励下,相继给网络输入一些样本模式,并按照一定的规则(学习算法)调整网络各层的权值矩阵,待网络各层权值都收敛到一定值,学习过程结束。然后我们就可以用生成的神经网络来对真实数据做分类。聚类分析算法(1)划分法(partitioning methods),给定一个有 N 个元组或者纪录的数据集,分裂法将构造 K 个分组,每一个分组就代表一个聚类, KN。而且这 K 个分组满足下列条件: 每一个分组至少包含一个数据纪录;每一个数据纪录属于且仅属于一个分组对于给定的 K,算法首先给出一个初始的分组方法

28、,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS算法。(2)层次法(hierarchical methods),这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。代表算法有:BIRCH 算法、 CURE 算法、CHAMELEON 算法等;(3)基于网格的方法(grid-based methods),这种方法首先将数据空间划分成为有限个单元(cell

29、)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。 代表算法有:STING 算法、CLIQUE 算法、WAVE-CLUSTER 算法;(4)基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。4.2.3 联机分析处理OLAP

30、系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称 ROLAP) 、多维OLAP(MultidimensionalOLAP,简称 MOLAP)和混合型OLAP(HybridOLAP,简称 HOLAP)三种类型。(1)ROLAPROLAP 将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个 SQL 查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对 OLAP 服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作 ROLAP 存储

31、器的 RDBMS 也针对OLAP 作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL 的 OLAP 扩展(cube,rollup)等等。(2)MOLAPMOLAP 将 OLAP 分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于 MOLAP 采用了新的存储结构,从物理层实现起,因此又称为物理 OLAP(PhysicalOLAP) ;而ROLAP 主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟 OLAP(VirtualOLAP ) 。(3)HOLAP由于 MOLAP 和 ROLAP 有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计 OLAP 结构提出了难题。为此一个新的 OLAP结构混合型 OLAP(HOLAP)被提出,它能把 MOLAP 和 ROLAP 两种结构的优点结合起来。迄今为止,对 HOLAP 还没有一个正式的定义。但很明显,HOLAP 结构不应该是 MOLAP 与 ROLAP 结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。1 数据仓库的概念及技术解决方案 数据智能网引用日期 2013-05-14

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报