数据挖掘概念与技术 CHAPTER1-引言.ppt-道客多多

资源描述

1、数据挖掘：概念与技术,Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明孟小峰等译机械工业出版社,教师：杨昆办公室：一教南楼517 毕业：哈尔滨工业大学计算机系老师邮箱： Telephone: 86878578 计算机应用技术研究所杭州电子科技大学,基本信息,基本信息,研究方向：计算生物学、生物信息学（Bioinforamtics）项目：样本不平衡的基因表达数据的分析方法研究 (Y1080973) 浙江省自然科学基金DNA甲基化异常的分析与预测(60903086) 国家自然科学青年基金,4

2、,Bioinforamtics 生物信息学,杨昆计算机应用技术研究所杭州电子科技大学,5,教材-作者,http:/www.cs.illinois.edu/homes/hanj/ The book will be covered in two courses at CS, UIUC：伊利诺伊大学，厄巴纳-尚佩恩(University of Illinois at Urbana-Champaign) CS412: Introduction to data warehousing and data mining Coverage (Chapters 1-7 of This Book) CS512

3、: Data mining: Principles and algorithms (Chapters 8-11 of This Book),6,Data and Information Systems (DAIS:) Course Structures at CS/UIUC,Coverage: Database, data mining, text information systems and bioinformatics Data mining Intro. to data warehousing and mining (CS412: HanFall) Data mining: Princ

4、iples and algorithms (CS512: HanSpring) Seminar: Advanced Topics in Data mining (CS591HanFall and Spring. 1 credit unit) Independent Study: only if you seriously plan to do your Ph.D. on data mining and try to demonstrate your ability Database Systems: Database mgmt systems (CS411: Kevin Chang Fall

5、and Spring) Advanced database systems (CS511: Kevin Chang Fall) Text information systems Text information system (CS410 ChengXiang Zhai)Bioinformatics Introduction to BioInformatics (Saurabh Sinha) CS591 Seminar on Bioinformatics (Sinha, Zhai, Han, Schatz, Zhong),7,课程信息,数据挖掘的（前7章的内容），第1章引言第2章数据预

6、处理第3章数据仓库与OLAP技术概述第4章数据立方体计算与数据泛化第5章挖掘频繁模式、关联和相关第6章分类和预测第7章聚类分析如果有时间（第11章数据挖掘的应用和发展趋势）导论课程（从数据库角度出发）相关涉及：数据库系统、统计学与机器学习的概念和技术,8,课时安排与考核,课时安排总学时 48，讲课学时 36，课内上机学时 12（课外上机学时 20）起止01-16周考核平时成绩+考试成绩,9,第1章引论,动机：为什么要数据挖掘? 什么是数据挖掘? 数据挖掘：在什么数据上进行? 数据挖掘功能所有的模式都是有趣的吗? 数据挖掘系统分类数据挖掘的主要问题,10,

7、数据处理技术的演进,1960s: 数据收集, 数据库创建, IMS层次和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的, 等.) 和面向应用的 DBMS (空间的, 科学的, 工程的, 等.) 1990s2000s: 数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库,11,12,动机: 需要是发明之母,数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中 Business: Web, e-commerce, transactions,

8、 stocks, Science: Remote sensing, bioinformatics, scientific simulation, Society and everyone: news, digital cameras, YouTube 我们正被数据淹没,但却缺乏知识数据丰富，但信息贫乏解决办法: 数据仓库与数据挖掘数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等),13,数据挖掘界简史,1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky

9、-Shapiro) Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on K

10、nowledge Discovery in Databases and Data Mining (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2001 conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc. ACM Transactions on KDD starting in

11、2007,14,Conferences and Journals on Data Mining,KDD Conferences ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific

12、-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD),Other related conferences ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Journals Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD,15,Where 2 Find Re

13、ferences? DBLP, CiteSeer, Google,Data mining and KDD (SIGKDD: CDROM) Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. Journal: Data Mining and Knowledge Discovery, KDD Explorations, ACM TKDD Database systems (SIGMOD: ACM SIGMOD AnthologyCD ROM) Conferences: ACM-SIGMOD, ACM-PODS, VLDB,

14、IEEE-ICDE, EDBT, ICDT, DASFAA Journals: IEEE-TKDE, ACM-TODS/TOIS, JIIS, J. ACM, VLDB J., Info. Sys., etc. AI & Machine Learning Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), CVPR, NIPS, etc. Journals: Machine Learning, Artificial Intelligence, Knowledge and Information Sys

15、tems, IEEE-PAMI, etc. Web and IR Conferences: SIGIR, WWW, CIKM, etc. Journals: WWW: Internet and Web Information Systems, Statistics Conferences: Joint Stat. Meeting, etc. Journals: Annals of statistics, etc. Visualization Conference proceedings: CHI, ACM-SIGGraph, etc. Journals: IEEE Trans. visuali

16、zation and computer graphics, etc.,16,什么是数据挖掘?,数据挖掘 (从数据中挖掘知识): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式数据挖掘: 用词不当? 其它叫法和“inside stories”内幕新闻 : 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dr

17、edging), 信息收获(information harvesting), 商务智能(business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统或小型机器学习(ML)/统计程序处理大量数据/ 有效的可伸缩的技术,Why Not Traditional Data Analysis?,巨大的的数据Tremendous amount of data Algorithms must be highly scalable to handle such as tera-bytes of data High-dimensionality of data

18、Micro-array may have tens of thousands of dimensions High complexity of data Data streams and sensor data Time-series data, temporal data, sequence data Structure data, graphs, social networks and multi-linked data Heterogeneous databases and legacy(遗产) databases Spatial, spatiotemporal, multimedia,

19、 text and Web data Software programs, scientific simulations New and sophisticated applications,18,数据挖掘过程,数据挖掘：KDD的核心.,数据清理,数据集成,数据库,知识,选择与变换,数据挖掘,模式评估,数据仓库,任务相关数据,19,KDD过程的步骤,学习应用领域: 相关的先验知识和应用的目标创建目标数据集: 数据选择数据清理和预处理: (可能占全部工作的 60%!) 数据归约与变换: 发现有用的特征, 维/变量归约, 不变量的表示. 选择数据挖掘函数汇总, 分类, 回归, 关联, 聚类.

20、选择挖掘算法数据挖掘: 搜索有趣的模式模式评估和知识表示可视化, 变换, 删除冗余模式, 等. 发现知识的使用,20,2019年6月13日星期四,Data Mining: Concepts and Techniques,20,KDD过程: 机器学习和统计的角度,Input Data,Pattern Information Knowledge,Data Mining,Data Pre-Processing,Post-Processing,This is a view from typical machine learning and statistics communities,Patt

21、ern discovery Association & correlation Classification Clustering Outlier analysis ,21,典型的数据挖掘系统结构,22,数据挖掘和商务智能,提高支持商务决策的潜能,最终用户,商务分析人员,数据分析人员,DBA,制定决策,数据表示,可视化技术,数据挖掘,信息发现,数据探查,OLAP, MDA,统计分析, 查询和报告,数据仓库 / 数据集市,数据源,文字记录, 文件, 信息提供者, 数据库系统, OLTP系统,23,为什么要数据挖掘?可能的应用,数据库分析和决策支持市场分析和管理针对销售(target mar

22、keting), 顾客关系管理, 购物篮分析, 交叉销售(cross selling), 市场分割(market segmentation) 风险分析与管理预测, 顾客关系, 改进保险, 质量控制, 竞争能力分析欺骗检测与管理其它应用文本挖掘 (新闻组, email, 文档资料) 流数据挖掘(Stream data mining) Web挖掘. 生物信息学/生物数据分析,24,市场分析与管理(1),用于分析的数据源在哪? 信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, (公共) 生活时尚研究针对销售(Target marketing) 找出顾客群, 他们具有相同特征 : 兴趣

23、, 收入水平, 消费习惯, 等. 确定顾客随时间变化的购买模式个人帐号到联合帐号的转变: 结婚, 等. 交叉销售分析(Cross-market analysis) 产品销售之间的关联/相关基于关联信息的预测,25,市场分析与管理(2),顾客分类(Customer profiling) 数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类) 识别顾客需求对不同的顾客识别最好的产品使用预测发现什么因素影响新顾客提供汇总信息各种多维汇总报告统计的汇总信息 (数据的中心趋势和方差),26,法人分析和风险管理,财经规划和资产评估现金流分析和预测临时提出的资产评估交叉组合(cross

24、-sectional) 和时间序列分析 (金融比率(financial-ratio), 趋势分析, 等.) 资源规划 : 资源与开销的汇总与比较竞争: 管理竞争者和市场指导对顾客分类和基于类的定价在高度竞争的市场调整价格策略,27,欺骗检测和管理(1),应用广泛用于健康照料, 零售, 信用卡服务, 电讯 (电话卡欺骗), 等. 方法使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例例汽车保险: 检测这样的人, 他/她假造事故骗取保险赔偿洗钱: 检测可疑的金钱交易 (US Treasurys Financial Crimes Enforcement Network)

25、医疗保险 : 检测职业病患者, 医生和介绍人圈,28,欺骗检测和管理(2),检测不适当的医疗处置澳大利亚健康保险会(Australian Health Insurance Commission) 发现许多全面的检查是请求做的, 而不是实际需要的 (每年节省100万澳元). 检测电话欺骗电话呼叫模式: 通话距离, 通话时间, 每天或每周通话次数. 分析偏离期望的模式. 英国电讯(British Telecom)识别频繁内部通话的呼叫者的离散群, 特别是移动电话, 超过数百万美元的欺骗. 零售分析家估计, 38%的零售业萎缩是由于不忠诚的雇员造成的.,29,生物数据分析/挖掘,microar

26、ray data analysis 微阵列数据 biological sequence analysis生物序列 biological network analysis 生物学网络生物文本挖掘文本数据中抽取biological information 从抽取信息中infer, predict biological features,30,其它应用,运动 IBM Advanced Scout分析NBA的统计数据 ( 阻挡投篮, 助攻, 和犯规 ) 获得了对纽约小牛队(New York Knicks)和迈艾米热队( Miami Heat )的竞争优势天文借助于数据挖掘的帮助,JPL 和 P

27、alomar Observatory 发现了22 颗类星体(quasars) Internet Web Surf-Aid IBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志, 以发现顾客喜爱的页面, 分析Web 销售的效果, 改进Web 站点的组织, 等. Web：页面的分类、聚类、推荐/用户的访问模式,31,数据挖掘:在什么数据上进行?,关系数据库数据仓库事务(交易)数据库先进的数据库和信息存储面向对象和对象-关系数据库空间和时间数据时间序列数据和流数据文本数据库和多媒体数据库异种数据库和遗产数据库 WWW,32,数据挖掘功能(1),概念描述: 特征和

28、区分Characterization and discrimination 概化, 汇总和比较数据特征, 例如, 干燥和潮湿的地区频繁模式,关联,相关 Frequent patterns, association, correlation vs. causality 频繁模式：数据中频繁出现的模式多维和单维关联 age(X, “2029”) income(X, “2029K”) buys(X, “PC”) support = 2%, confidence = 60% contains(T, “computer”) contains(T, “software”)support = 1%, c

29、onfidence = 75%,33,数据挖掘功能(2),分类和预测找出描述和识别类或概念的模型( 函数), 用于标号未知的对象的标号预测/Predict some unknown class labels 例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类模型表示: 判定树(decision-tree), 分类规则, 神经网络判别分析discriminat analysis 有监督方法 supervised method/在已知对象分成若干类别并取得各种类别的一组观测样本，在此基础上根据某些准则（学习）建立判别式；然后对未知类别样本进行（判别）分类预测: 预测某些未知或遗漏的

30、数值值/定量的quantitative输出变量,34,数据挖掘功能(3),聚类分析Unsupervised learning (i.e., Class label is unknown) 类标号(Class label) 未知: 对数据分组, 形成新的类. 例如, 对房屋分类, 找出分布模式聚类原则: 最大化类内的相似性, 最小化类间的相似性,35,数据挖掘功能(4),孤立点(Outlier)分析孤立点: 一个数据对象, 它与数据的一般行为不一致孤立点可以被视为例外, 但对于欺骗检测和罕见事件分析, 它是相当有用的趋势和演变分析趋势和偏离: 回归分析序列模式挖掘, 周期性分析 e

31、.g., first buy digital camera, then buy large SD memory cards 基于相似的分析 Approximate and consecutive motifs,36,36,数据挖掘功能(5) -Structure and Network Analysis,Graph mining Finding frequent subgraphs (e.g., chemical compounds), trees (XML), substructures (web fragments) Information network analysis Social

32、networks: actors (objects, nodes) and relationships (edges) e.g., author networks in CS, terrorist networks Multiple heterogeneous networks A person could be multiple information networks: friends, family, classmates, Links carry a lot of semantic information: Link mining Web mining Web is a big inf

33、ormation network: from PageRank to Google Analysis of Web information networks Web community discovery, opinion mining, usage mining, ,37,Top-10 Most Popular DM Algorithms:18 Identified Candidates (I),Classification #1. C4.5: Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann., 1993

34、. #2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, 1984. #3. K Nearest Neighbours (kNN): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. TPAMI. 18(6) #4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiots

35、 Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. Statistical Learning #5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag.#6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. Association Analysis #7. Apriori: R

36、akesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB 94. #8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD 00.,38,The 18 Identified Candidates (II),Link Mining #9. PageRank: Brin, S. and Page, L.

37、 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. #10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. SODA, 1998. Clustering #11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, i

38、n Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. #12. BIRCH: Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD 96. Bagging and Boosting #13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decisio

39、n-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139.,39,The 18 Identified Candidates (III),Sequential Patterns #14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improveme

40、nts. 5th International Conference on Extending Database Technology, 1996. #15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE 01. Integrated Mining #16. CBA: Liu, B

41、., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. Rough Sets #17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 Graph Mining #18. gSpan: Yan, X. and Han, J. 2002. gSpan: G

42、raph-Based Substructure Pattern Mining. In ICDM 02.,40,Top-10 Algorithm Finally Selected at ICDM06,#1: C4.5 (61 votes) #2: K-Means (60 votes) #3: SVM (58 votes) #4: Apriori (52 votes) #5: EM (48 votes) #6: PageRank (46 votes) #7: AdaBoost (45 votes) #7: kNN (45 votes) #7: Naive Bayes (45 votes) #10:

43、 CART (34 votes),41,挖掘出的所有模式都是有趣的吗?,一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的建议的方法: 以人为中心, 基于查询的, 聚焦的挖掘兴趣度度量 : 一个模式是有趣的如果它是易于被人理解的, 在某种程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 或验证了用户希望证实的某种假设客观与主观的兴趣度度量 : 客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等. 主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性(actionability), 等.,42,能够只发现有趣的模式吗?,

44、发现所有有趣的模式: 完全性数据挖掘系统能够发现所有有趣的模式吗? 关联 vs. 分类 vs. 聚类仅搜索有趣的模式: 优化数据挖掘系统能够仅发现有趣的模式吗? 方法首先找出所有模式, 然后过滤掉不是有趣的那些. 仅产生有趣的模式挖掘查询优化,43,数据挖掘: 多学科交叉,数据挖掘,数据库技术,统计学,其它学科,信息科学,机器学习,可视化,44,数据挖掘分类,一般功能描述式数据挖掘描述数据的一般性质预测式数据挖掘对数据进行推断，做预测不同的角度,不同的分类待挖掘的数据库类型待发现的知识类型所用的技术类型所适合的应用类型,45,数据挖掘分类的多维视图,待挖掘的数据库关系

45、的, 事务的, 面向对象的, 对象-关系的, 主动的, 空间的, 时间序列的, 文本的, 多媒体的, 异种的, 遗产的, WWW, 等. 所挖掘的知识特征, 区分, 关联, 分类, 聚类, 趋势, 偏离和孤立点分析, 等. 多/集成的功能, 和多层次上的挖掘所用技术面向数据库的, 数据仓库 (OLAP), 机器学习, 统计学, 可视化, 神经网络, 等. 适合的应用零售, 电讯, 银行, 欺骗分析, DNA 挖掘, 股票市场分析, Web 挖掘, Web日志分析, 等,46,OLAP挖掘: 数据挖掘与数据仓库的集成,数据挖掘系统, DBMS, 数据仓库系统的耦合不耦合, 松耦合, 半

46、紧密耦合, 紧密耦合联机分析挖掘挖掘与 OLAP 技术的集成交互挖掘多层知识通过下钻, 上卷, 转轴, 切片, 切块等操作, 在不同的抽象层挖掘知识和模式的必要性. 多种挖掘功能的集成特征分类, 先聚类再关联,47,OLAM 的结构,数据仓库,元数据,MDDB,OLAM 引擎,OLAP 引擎,用户 GUI API,数据立方体 API,数据库 API,数据清理,数据集成,第3层 OLAP/OLAM,第2层 MDDB,第1层数据存储,第4层用户界面,过滤和集成,过滤,Databases,挖掘查询,挖掘结果,OLAM(数据联机分析挖掘)是OLAP(联机分析处理)与DM(数据挖掘)相结合而

47、形成的一个新的体系结构。,48,Why Data Mining Query Language?,Automated vs. query-driven? Finding all the patterns autonomously in a database?unrealistic because the patterns could be too many but uninteresting Data mining should be an interactive process User directs what to be mined Users must be provided with

48、a set of primitives(原语,基本要素) to be used to communicate with the data mining system Incorporating these primitives in a data mining query language More flexible user interaction Foundation for design of graphical user interface Standardization of data mining industry and practice,49,数据挖据查询语言,通过数据挖掘查询

49、语言，数据挖掘任务可以通过查询的形式输入到数据挖掘系统中。定义数据挖据查询语言的优势,50,Primitives that Define a Data Mining Task,Task-relevant data Database or data warehouse name Database tables or data warehouse cubes Condition for data selection Relevant attributes or dimensions Data grouping criteria Type of knowledge to be mined Characterization, discrimination, association, classification, prediction, clustering, outlier analysis, other data mining tasks Background knowledge Pattern interestingness measurements Visualization/presentation of discovered patterns,

展开阅读全文