ImageVerifierCode 换一换
格式:PPT , 页数:44 ,大小:1.09MB ,
资源ID:5229041      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5229041.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘软件的发展.ppt)为本站会员(hskm5268)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

数据挖掘软件的发展.ppt

1、主讲人 朱扬勇,数据挖掘软件发展分析,2,一、数据挖掘概念-定义,数据挖掘-从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合。,数据挖掘与统计学 数据挖掘与人工智能 数据挖掘与数据库技术 数据挖掘与KDD,3,一、数据挖掘概念-原由,国民经济和社会的信息化,社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史,因此政府提出 “信息化”和“发展软件产业”,4,一、数据挖掘概念-原由,有价值的知识,可怕的数据,5,一、数据挖掘概念-原由,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,6,一、数据挖掘概念-发展,1

2、989 IJCAI会议: 数据库中的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowl

3、edge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations 数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,7,一、数据挖掘概念-技术,技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 数据挖掘技术 关联分析 序列模式 分类(预言) 聚集 异常检测,8,二、数据挖掘软件的发展,Robert Grossman, National

4、 Center for Data Mining University of Illinois at Chicago 的观点,9,二、数据挖掘软件的发展,第一代数据挖掘软件,特点 支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统(www.salford-) 缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。,10,二、数据挖掘软件的发展,第一代数据挖掘软件 CBA 新加坡国立大学。基于关联规则的分类算法,

5、能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测,11,二、数据挖掘软件的发展,第二代数据挖掘软件,特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发,12,二、数据挖掘软件的发展,第二代数据挖掘软件 DBMiner,13,二、数据挖掘软件的发展,第二代

6、软件 SAS Enterprise Miner,14,二、数据挖掘软件的发展,第三代数据挖掘软件,特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷 不能支持移动环境,15,二、数据挖掘软件的发展,第三代软件 SPSS Clementine,以PMML的格式提供与预言模型系统的接口,16,二、数据挖掘软件的发展,第四

7、代数据挖掘软件,特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据

8、挖掘系统。,17,二、数据挖掘软件的发展,第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作型环境的部署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导,18,二、数据挖掘软件的发展,数据挖

9、掘软件发展的三个阶段 独立的数据挖掘软件 横向的数据挖掘工具集 纵向的数据挖掘解决方案,Gregory Piatetsky-Shapiro的观点,19,二、数据挖掘软件的发展,独立的数据挖掘软件(95年以前),特点 独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。 这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinate visualization)。,20,二、数据挖掘软件的发展,横向的数据挖掘工具集(95年开始),发展原

10、因 随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。 随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。 现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型,21,二、数据挖掘软件的发展,横向的数据挖掘工具集(95年开始),发展过程 随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件 特点 此

11、类工具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(Horizontal Data Mining Tools) 由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具 典型的横向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等,22,二、数据挖掘软件的发展,横向的数据挖掘工具集(95年开始),IBM Intelligent Miner SPSS的Cleme

12、ntine SAS的Enterprise Miner SGI的MineSet Oracle Darwin,23,二、数据挖掘软件的发展,纵向的数据挖掘解决方案(99年开始),发展原因 随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中,24,二、数据挖掘软件的发展,纵向的数据

13、挖掘解决方案(99年开始),在证券系统中嵌入神经网络预测功能 在欺诈检测系统中嵌入欺诈行为的分类/识别模型 在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能 在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能 在数据库营销中嵌入选择最可能购买产品的客户功能 在机场管理系统中嵌入旅客人数预测、货运优化功能 在基因分析系统中嵌入DNA识别功能 在制造/生产系统中嵌入质量控制功能等,25,二、数据挖掘软件的发展,纵向的数据挖掘解决方案(99年开始),KD1(主要用于零售业) Options&Choice(主要用于保险业) HNC(欺诈行为侦测) Unica Model 1(主要用于

14、市场营销),26,二、数据挖掘软件的发展,综合的数据挖掘解决方案(复旦的工作),27,三、数据挖掘软件的现状,情况概览 2002年9月,Amazon上关于数据挖掘的书有251本() 目前有数百个数据挖掘软件产品() 数据挖掘应用相对广泛,28,三、数据挖掘软件的现状,2001/5/142001/5/24(实际),2001/11/262001/12/9(预测),29,三、数据挖掘软件的现状,调查报告(2002.6.3-6.16),30,三、数据挖掘软件的现状(国内情况),大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有) 数据挖掘讨论组() 有

15、一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Miner 自主知识产权的数据挖掘软件 复旦德门()等,31,四、数据挖掘应用,调查报告(2002.6.3-6.16),32,四、数据挖掘应用,银行 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。 分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等 电子商务 网上商品推荐;个性化网页;自适应网站 生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 电信 欺诈甄别;客户流失 保险、零售。,

16、33,四、数据挖掘应用,数据挖掘,保险客户,证券客户,银行客户,电信客户,零售客户,人类基因,植物基因,动物基因,特殊群体基因,基因序列 基因表达谱 基因功能 基因制药.,数据挖掘中国内地市场规模未来五年内将达百亿,34,四、数据挖掘应用,为什么没有广泛使用?,数据挖掘正在快速的发展 技术的研究和开发已经走在很前沿的地方 数据挖掘应用面已经扩充了很多 但是仍然没有希望的高,为什么? 希望在多少年内达到数十亿元的盈利? 是一种增值服务(Not bread-and-butter) 不能认为高不可攀,所以不去过问 是一门年轻的技术,需要和实际结合,解决现实问题,35,四、数据挖掘应用,国内应用存在的

17、问题,数据积累不充分、不全面 业务模型构建困难 缺少有经验的实施者,36,四、数据挖掘应用-业务建摸,神经网络 Neural Networks,聚类分析 Clustering,Open Accnt,Add New Product,Decrease Usage,?,Time,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留客户生命周期管理目标市场价格弹性分析,客户细分市场细分,倾向性分析客户保留目标市场欺诈检测,关联分析 Association,市场组合分析套装产品分析目录设计交叉销售,37,四、数据挖掘应用-业务建摸,聚集(Cluster

18、) 聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。 常用技术:神经元网络、K均值、最近邻,38,四、数据挖掘应用-业务建摸,异常检测 及时发现有欺诈嫌疑的异常行为,正确进行欺诈问题的评估,对欺诈者实施控制和强制措施。 技术:决策树,神经元网络,异常因子LOF检测,客户消费异常行为分析模型,39,四、数据挖掘应用-业务建摸,客户分析业务模型 交叉销售 客户响应 客户流失 客户利润 信用卡分析业务模型 客户信用等级评估 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常行为分析,40,四、数据挖掘应用-业务建摸,41,四、数据挖掘应用-业

19、务建摸,客户响应模型基本概念,响应率分析: 分析客户对某种新服务或者新产品的感兴趣情况. 为什么要进行响应率分析:通过响应率分析能够有效的降低市场推广的费用,同时能够更加有针对性的面对目标市场.达到以最小的投入获得最佳效果的目的,42,四、数据挖掘应用-业务建摸,用哪一种数据挖掘技术实现?,响应率分析是为了对某项市场营销(新产品销售)活动找到最合适的响应客户,需要预测哪些客户能够响应,以及响应的可能性是多少。 因此,需要构建预言模型 分类是预言模型的一种技术,可以利用分类技术构建客户响应率模型 决策树 神经网络 贝叶斯分类 ,43,五、数据挖掘未来发展,与数据库数据仓库系统集成 与预言模型系统集成 挖掘各种复杂类型的数据 与应用相结合 研制和开发数据挖掘标准 支持移动环境,44,联系方式,朱扬勇 200433上海邯郸路220号 复旦大学计算机与信息技术系 021-65555410, 13601675231,谢 谢!,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报