收藏 分享(赏)

大数据与数据挖掘.ppt

上传人:weiwoduzun 文档编号:3652807 上传时间:2018-11-14 格式:PPT 页数:77 大小:6.83MB
下载 相关 举报
大数据与数据挖掘.ppt_第1页
第1页 / 共77页
大数据与数据挖掘.ppt_第2页
第2页 / 共77页
大数据与数据挖掘.ppt_第3页
第3页 / 共77页
大数据与数据挖掘.ppt_第4页
第4页 / 共77页
大数据与数据挖掘.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

1、数据挖掘课程教学研讨,数据挖掘课程的目的,什么是数据挖掘,Wiki中的定义 the analysis step of the “Knowledge Discovery in Databases“ process, or KDD An interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligenc

2、e, machine learning, statistics, and database systems.The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data pre-

3、processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.,2018/11/14,数据库研究所,3,开设数据挖掘课程的目的,技术发展的趋势的需要 大数据和智能化是信息技术发展的新动力 技术发展路径 数据库-数据仓库-数据挖掘-大数据 数据挖掘技术已经成为很多应用领域的基本支撑技术 WEB数据分析 电子商

4、务 生物信息学 金融数据分析 ,2018/11/14,数据库研究所,4,开设数据挖掘课程的目的,数据分析类课程在计算机教学体系中的作用将逐渐增加 数据挖掘、机器学习、 培养学生理论与应用相结合能力 培养学生应用基本的方法,提高解决实际的系统能力 数据挖掘课程的特点 入门容易 有深度 应用实例多 易于设计实验,2018/11/14,数据库研究所,5,复旦大学数据挖掘课程的设置,复旦大学计算机科学技术学院基本情况 学生情况 120名本科生/年 150名研究生/年 教师情况 教学科研教师:100名左右 教学理念 强调数据基础 强调学生综合能力的培养 强调学生创新能力培养,复旦大学计算机科学技术学院基

5、本情况 主要研究方向 媒体计算 数据库与数据科学 网络与信息安全 智能信息处理 人机接口和服务计算 理论计算机科学 软件工程与系统软件,2018/11/14,数据库研究所,6,复旦大学数据挖掘课程的设置,总体目标 掌握大规模数据挖掘与分析的基本流程 掌握数据挖掘的基本算法 掌握对实际数据集进行挖掘的系统能力 算法设计 挖掘算法的内涵 参数设置 结果评估 了解数据挖掘的主要应用方向 为后续的课程做准备,2018/11/14,数据库研究所,7,复旦大学数据挖掘课程的设置,2018/11/14,数据库研究所,8,数据仓库与数据挖掘,WEB数据管理和数据挖掘,数据密集型计算,文本数据挖掘,高级数据挖掘

6、技术,数据库系统,机器学习,生物信息学,多媒体数据处理,数据库新技术,数据仓库与数据挖掘,课程的教学目的 掌握数据仓库数据挖掘原理、技术和方法,掌握建立数据挖掘应用系统的方法,了解相关前沿的研究。 教学内容 数据挖掘、数据仓库的基本概念 数据仓库设计和应用 数据挖掘的基本技术 关联分析、分类分析、聚类分析、异常分析和演化分析等;联机分析处理OLAP技术; 数据挖掘应用系统开发 数据挖掘技术的新应用 数据挖掘软件发展,2018/11/14,数据库研究所,9,高级数据挖掘,课程的教学目的 让学生掌握数据挖掘的基本概念、算法和高级技术; 将这些概念、算法和技术应用于实际问题。 教学内容 分类算法,

7、包括决策树(ID3, C4.5, SPRINT等)、基于规则的分类器(C4.5rules, RIPPLE等)、Nave Bayes分类器和贝叶斯网络、最近邻分类器(kNN, Condensed kNN, DANN等)、支持向量机(SVM)、Ensemble方法(如AdaBoost, Bagging, Rain Forest等),以及模型选择(如MDL,Regularization Network等)。,2018/11/14,数据库研究所,10,高级数据挖掘,教学内容 聚类分析 划分型聚类算法,如K-means等 层次型聚类算法,如Single link, complete link, Ward

8、方法等 及基于模型的聚类如EM算法; 基于密度的聚类算法如DBSCAN 其他高级聚类算法,如Clique, CURE, CHAMELEON, BIRCH等 关联分析, Apriori算法、DHP、FP-growth,以及频繁序列挖掘、图挖掘等,教学内容 数据挖掘应用 异常检测、数据流挖掘、Web挖掘(PageRank, HITS和Spam, Opinion Mining)、社会网络分析(Blog、Tag分析等)、数据挖掘和隐私保护、文本挖掘(PLSA, 概率主题模型等)、降维技术(SVD, FastMap, LSH等)和特征选择(基于互信息量的方法、Relief等)等主题 具体内容逐步调整 研

9、讨是主要的授课方式,2018/11/14,数据库研究所,11,Web数据管理和数据挖掘,本课程的教学目的 了解大规模WEB数据(包括HTML数据、XML等类型数据)的管理与挖掘技术,及其在WEB领域中的应用,学会充分利用领域内的信息 课程内容 网络爬虫技术 DNS解析、链接抽取、重复网页处理、 WEB搜索和信息检索 文本预处理、向量空间模型、相关性反馈 WEB数据挖掘 相似性计算和聚类、文本分类、链接分析、 WEB数据挖掘应用 社交网络分析、资源发现、,2018/11/14,数据库研究所,12,文本数据挖掘,课程的教学目的 了解大规模文本数据的处理和挖掘技术,及其在生物/医疗等文本数据分析中的

10、应用 课程内容 文本预处理技术 文本聚类技术 基于本体的文本数据挖掘 文本挖掘中的概率模型 可视化技术 生物/医疗文本数据挖掘,2018/11/14,数据库研究所,13,数据密集型计算理论与实践,课程的教学目的 了解基于云计算平台或其他的新型分布式/并行计算平台上数据挖掘算法的实现技术及其应用 课程内容,分布式系统简介 分布式文件系统 并行编程基础 Map/Reduce编程模型 分布式图算法与PageRank 聚类算法与MapReduce,2018/11/14,数据库研究所,14,分类算法与MapReduce NOSQL介绍 GPU通用编程基础 CUDA介绍与调优 社会媒体中典型应用 信息检索

11、中典型应用,主要参考文献,Jiawei Han,etc. Data Mining Concept and Techniques, Magan Karfmann Publishers Soumen Chakrabarti, Mining the WEB- discovering knowledge from hypertext data, Magan Karfmann Publishers 朱扬勇等,数据挖掘技术及其应用 Pang-Ning Tan, M. Steinbach, and V. Kumar. Introduction to Data Mining (影印版), 人民邮电出版社, 2

12、006.1. Ian Witten, and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques (影印版, 第2版), 机械工业出版社, 2005.9. David Hand, H. Mannila, and P. Smyth. Principles of Data Mining, 机械工业出版社, 2003.4. T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, I

13、nference, and Prediction, Springer-Verlag, 2001 Data and XML, Morgan Kaufman Publishers, 2000 6. KDD, VLDB, SIGMOD, ICDM, SDM, ICML等会议论文,2018/11/14,数据库研究所,15,数据挖掘课程的主要内容,数据挖掘的理念,数据挖掘是一个过程 数据准备、挖掘、评估、参数调整、再挖掘、 数据挖掘是一个白盒操作 挖掘结果的解释是一个重要操作 数据挖掘是对数据的操作 理解数据 整理数据 面向目标设计挖掘模式,2018/11/14,数据库研究所,17,数据挖掘课程的主要内

14、容,先导课程 数据库、概率统计 数据挖掘的基本算法 适用于本科生 推荐教材 Jiawei Han, Jian Pei, etc. Data Mining Concept and Techniques, Magan Karfmann Publishers,高级数据挖掘技术 适用于研究生 适用于研究生 面向特定领域的数据挖掘技术 适用于本科生科创活动选题,2018/11/14,数据库研究所,18,数据挖掘是一个过程,数据清理,数据集成,数据库,数据仓库,知识,任务相关的数据,选择,数据挖掘,模式评估,2018/11/14,数据库研究所,19,数据,数据的类型 各种类型的数据 文本、序列、图片、视频

15、 特征抽取 属性数据 图、树结构数据 数据的关联关系和数据内容 理解数据的语义的体现的形式,明确数据挖掘的依据,2018/11/14,数据库研究所,20,数据,数据集的特点 数据的稀疏性 数据的分布 数据的覆盖范围 ,2018/11/14,数据库研究所,21,数据挖掘的结果和数据集有很大的关联 挖掘之前需要了解数据,数据,数据的相似性度量 度量的三个性质 非负性、对称性、三角不等式 各种评价相似性的方法 欧几里得距离、明考斯基距离、余弦相似度、皮尔森相关系数,2018/11/14,数据库研究所,22,评价数据的相似性是数据挖掘的基础,数据仓库,定义 数据仓库是为支持管理决策建立的,面向主题的、

16、集成的、随时间变化的、不可修改的数据集合 主要内容 ETL工具 数据仓库建模 联机分析,2018/11/14,数据库研究所,23,数据仓库为数据挖掘构建了数据基础,是大数据集成技术的雏形,联机分析是数据挖掘的一种,数据仓库,2018/11/14,数据库研究所,24,数据抽取E,针对多个数据源(来自不同设备,使用不同数据格式),数据清洁(编码矛盾,遗失值,重复值,规范化;组合多源记录数据,清除无用源数据等);数据汇总,包括最初的装载,数据仓库开始工作后的将变动的数据进行转换后存入正在工作的数据仓库,数据转换T,数据加载L,数据仓库,ETL(Extract、Transfer、Load),2018/

17、11/14,数据库研究所,25,在一个给定时刻捕获的数据,即相关源数据在某个特定时刻的快照。(一般初始装载时使用),静态数 据抽取,修正/追加 数据抽取,延缓型 数据抽取,立即型 数据抽取,数据抽取技术,抽取是实时的,当交易发生时就会在源数据库和文件中发生。 通过交易日志捕获; 从数据库触发器捕获; 从源应用程序捕获。,基于日期和时间标记捕获;通过文件比较捕获。,数据仓库,数据抽取将不同来源的数据放在一起,2018/11/14,数据库研究所,26,数据转换,选择 ,转化 汇总,分离/合并,选择从源系统得到的整个记录或部分记录(抽取过程),标准化,使字段对用户可用可理解;粒度,多个系统中选中部分

18、的合并操作,常见的转换类型 格式修正;字段解码;计算值和导出值;单个字段分离;信息合并;特征集合转化;度量单位转化;日期/时间转化;汇总;键重新构造等,数据转换:根据转换规则进行转换和重新结构化(映射),数据仓库,数据转换将统一不同格式的数据,2018/11/14,数据库研究所,27,数据仓库,数据清洗 不完整的数据可能来自收集数据时该数据值(属性)没有用、不考虑人员/硬件/软件故障 噪声数据 (不正确的数值)可能来自仪器设备产生错误数据数据输入时人为错误或计算机错误数据传输错误 不一致数据可能来自不同的数据源,数据质量是取得好的数据挖掘结果的基础,2018/11/14,数据库研究所,28,初

19、始装载: 第一次对所有的数据仓库表进行迁移,增量装载: 根据需要定期应用运行过程中发生的变化,完全刷新: 完全删除一个或多个表的内容,并重新装载新的数据,数据仓库,2018/11/14,数据库研究所,29,数据仓库模式-雪花模型,雪花模型是描述属性数据的候选模型,2018/11/14,数据库研究所,30,联机分析,联机分析 1993年,E.F.Codd提出多维数据库和多维分析的概念(即OLAP),侧重于分析型应用 用于区别于OLTP的操作型应用 OLTP已不能满足用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求,2018/11/14,数据库研究所,31,数据立

20、方体,2018/11/14,数据库研究所,32,2018/11/14,数据库研究所,33,数据立方体,联机分析是数据挖掘的一种重要的形式,数据准备,数据裁剪和构造 在保持原数据完整性的基础上,对这些数据进行归约化处理,以提高数据分析或数据挖掘的效果 维归约 选维 :使用特征的一个子集 降维:主成分分析PCA 特征加权与筛选 特征转换与构造 数据压缩 数值归约,2018/11/14,数据库研究所,34,构造合适的数据是取得好的数据挖掘结果的基础,2018/11/14,数据库研究所,35,关联规则,项集 X = x1, , xk 找到满足最小支持度和置信度的规则 X Y 支持度, s, 事务包含X

21、 Y的概率 置信度, c, 包含X同时包含Y的条件概率,Let supmin = 50%, confmin = 50% Freq. Pat.: A:3, B:3, D:4, E:3, AD:3 Association rules: A D (60%, 100%) D A (60%, 75%),关联规则,关联规则的主要算法种类 Apriori FP-growth 模式的变种 约束 闭模式 信息量的评估方法 不同类型数据中的频繁模式 序列 图,2018/11/14,数据库研究所,36,减少频繁模式/规则的规模是关联规则技术应用的关键,聚类分析,2018/11/14,数据库研究所,37,是根据最大化

22、簇内的相似性、最小化簇间的相似性的原则将数据对象聚类或分组,所形成的每个簇可以看作一个数据对象类,用显式或隐式的方法描述它们,基于划分的,基于层次的,基于密度的,基于网格的,基于模型的,聚类算法,K-means,K-medoids,凝聚的,分裂的,DBSCAN,OPTICS,STING,CLIQUE,Statistics,Neural Network,聚类分析,2018/11/14,数据库研究所,38,能够适用于大数据量(可伸缩性),能够处理不同类型数据(距离定义),能够处理高维数据,能够发现任意形状的簇(结果特点),应用聚类算法需要考虑的因素,聚类结果可解释、易使用,具有处理噪声的能力,聚类

23、分析,2018/11/14,数据库研究所,39,2018/11/14,数据库研究所,40,分类分析,定义 给定一个数据样本集DX1,X2,Xn,样本Xi D,类的集合CC1, C2,Cm,分类是从数据样本集到类集合的映射f:D C,即数据集中的样本Xi分配到某个类Cj中,有Cj Xi|f(Xi) = Cj,1in,1jm,且Xi D。 即通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y,f又称分类模型,分类分析,2018/11/14,数据库研究所,41,分类分析,分类算法 决策树 贝叶斯方法 最近邻 支持向量机 神经网络 ,评估分类算法的要素 预测的准确度 计算复杂度 模

24、型描述的简洁性 模型的可解释性 避免过度拟合,2018/11/14,数据库研究所,42,2018/11/14,数据库研究所,异常检测,异常 一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为“异常”(小模式) 异常检测 发现数据集中明显不同于其他数据的对象的过程。即对“异常”数据的发现和分析,43,异常、噪声,如何定义异常?,2018/11/14,数据库研究所,44,2018/11/14,数据库研究所,异常检测,异常检测的主要方法 基于聚类的异常挖掘 k-近邻方法 基于统计的异常分析方法 基于偏差的异常分析方法 具体算法 DB(pct,dmin)异常 DnK异常 k

25、-distance LOF,45,序列数据挖掘,应用领域 生物信息学 金融数据分析 电子商务 信用卡分析,主要的挖掘角度 趋势变化 序列模式挖掘 循环变化 非规则随机变化 关联分析,2018/11/14,数据库研究所,46,可视化,2018/11/14,数据库研究所,47,可视化是评估挖掘结果的有效工具,数据挖掘技术的应用领域,商业数据挖掘,“尿布与啤酒”的故事 数据挖掘项目实施 良好的数据积累 明确的业务需求 准备数据 数据挖掘技术 结果表达 结果评价 结果利用,2018/11/14,数据库研究所,49,信用卡分析,持卡人(去哪里消费优惠)特约商户 (有哪些消费者) 客户信用等级评估(VIP

26、、二八法则) 客户利润分析(银行贡献度) 客户消费行为分析 客户消费异常行为分析 ,2018/11/14,数据库研究所,50,2018/11/14,数据库研究所,51,WEB数据挖掘,面向网络用户行为的分析和网页内容的挖掘是WEB应用企业的核心技术,关注点分析,社交网络挖掘,基于社交网络的富媒体分析 DBLP、微博 社交网络上的信息传播模式分析,2018/11/14,数据库研究所,52,金融数据挖掘,面向股票和期货价格趋势及其同相关因素关联关系的挖掘是程序化交易的核心技术,2018/11/14,数据库研究所,53,生物数据挖掘,面向基因数据的挖掘是生物信息学的基础 生物信息数据的类型 基因序列

27、、蛋白质相互作用网络、蛋白质三维结构、,2018/11/14,数据库研究所,54,基因中能发现什么? 转录结合变化?,生物数据挖掘,生物/医疗文本挖掘是现代医疗发展的主要支撑技术之一,2018/11/14,数据库研究所,55,医药分析,面向海量分子结构的分析成为当前新药研制的主要手段 其核心技术的对图模型描述的海量分子结构的模式分析,2018/11/14,数据库研究所,56,数据挖掘其他应用领域,基于位置的服务 智能交通 桥梁监控 节能分析 ,2018/11/14,数据库研究所,57,数据挖掘技术的发展趋势,数据挖掘领域的主要期刊和学术会议,国际学术会议 SIGKDD、ICDM、SIAM DM

28、、PKDD、 SIGMOD、VLDB、ICDE、 国际学术期刊 IEEE KDD DKDM ,2018/11/14,数据库研究所,59,从KDD 2012看数据挖掘的发展方向,2018/11/14,数据库研究所,60,从KDD 2012看数据挖掘的发展方向,Best paper T. Rakthanmanon, B. Campana, A. Mueen, G. Batista, B. Westover, Q. Zhu, J. Zakaria, E. Keogh. Searching and Mining Trillions of Time Series Subsequences under D

29、ynamic Time Warping . (UCR) Best Student paper Y. Sun, B. Norick, J. Han, X. Yan, P. Yu, X. Yu. Integrating Meta-Path Selection with User Guided Object Clustering in Heterogeneous Information Networks . (UIUC) Q. Ding, N. Katenka, P. Barford, E. Kolaczyk, Mark Crovella. Intrusion as (Anti)social Com

30、munication: Characterization and Detection. (Boston U.),2018/11/14,数据库研究所,61,从KDD 2012看数据挖掘的发展方向,WEB和社交数据分析 针对社交网络和WEB数据,结合社会学等方面的理论,研究其信息传播和用户行为模式的分析方法 主要研究问题 面向市场划分社交网络的聚类 面向竞争的网络中的病毒传播模式分析,2018/11/14,数据库研究所,62,从KDD 2012看数据挖掘的发展方向,图挖掘 基于新型计算平台研究超大规模图数据的管理与挖掘技术 主要研究问题 基于流计算模式的超大规模图数据分割算法 最大团的有效计算方法

31、 基于图数据的用户行为分析方法 大规模二部图的摘要分析,2018/11/14,数据库研究所,63,从KDD 2012看数据挖掘的发展方向,时空数据挖掘 面向移动互联网、基于位置的服务等应用的需求,研究各种时空数据及相关数据的模式和关联关系的挖掘方法 主要研究问题 移动对象间关联关系的分析 轨迹数据分析 ,2018/11/14,数据库研究所,64,从KDD 2012看数据挖掘的发展方向,知识库 通过对WEB数据、访问日志等数据源的数据进行分析,获取概念/实体间的关联关系(包括分类体系等),以构建知识库 知识库是数据语义的新的描述形式 主要研究问题 面向检索关键词的分类体系构造 链接实体分析,20

32、18/11/14,数据库研究所,65,从KDD 2012看数据挖掘的发展方向,模式挖掘 研究各种新型模式的挖掘和评估技术 主要研究问题 面向流环境的动态模式挖掘 模式的精简表示 模糊覆盖 Categorical属性的布尔表示,2018/11/14,数据库研究所,66,从KDD 2012看数据挖掘的发展方向,时间序列分析和事件挖掘 针对大规模的时间序列数据研究其蕴含的事件挖掘方法 主要研究问题 时间序列数据的语义描述(事件分析) 超大规模序列数据(包括GPS路径、通讯网络)的挖掘技术,2018/11/14,数据库研究所,67,不确定数据(Uncertain data)挖掘,不确定数据产生的原因

33、信息集成 数据采集 封闭世界假设主要挑战 中间结果的规模过于庞大 主要研究方向 频繁模式挖掘 不确定图数据检索 ,查询John和Bill的SSN号码: (1,7)-0.14; (1,4)-0.06; (7,7)-0.56; (7,4)-0.24;,2018/11/14,数据库研究所,68,从KDD 2012看数据挖掘的发展方向,隐私保护是数据挖掘领域面临的重要问题 匿名化是解决隐私保护问题的途径之一 各种类型数据隐私保护和新的数据保护策略是研究的方向,2018/11/14,数据库研究所,69,大数据与数据挖掘,大数据,大数据是当前最“热”的名词 大数据的实质内容 从数据出发,通过对海量数据的分

34、析获取有用的信息(纯属个人观点) 大数据的挑战 信息的准确性 数据本身的特性 新型的挖掘算法、,2018/11/14,71,数据库研究所,大数据时代带来的数据挖掘新应用,“沃森” 2011年2月17日由IBM和美国德克萨斯大学联合研制的超级电脑“沃森”(Watson)今日在美国最受欢迎的智力竞猜电视节目危险边缘中击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为危险边缘节目新的王者 基础 存储了大量图书、新闻和电影剧本资料、辞海、文选和世界图书百科全书(World Book Encyclopedia)等数百万份资料。每当读完问题的提示后,“沃森“就在不到三秒钟的时间里在长达2亿页的

35、漫漫资料里展开搜索,2018/11/14,数据库研究所,72,大数据时代带来的数据挖掘新应用,知识图谱(Knowledge Graph) Google、微软、 下一代搜索引擎的核心技术之一 基于自然语言理解、机器学习、数据挖掘等技术从WEB网页、互动百科等各种信息源中抽取各种概念和实体,以及它们之间的关联关系 作为一种知识库或语义工具提供检索、推荐、内容管理等方面的服务,2018/11/14,数据库研究所,73,大数据时代带来的数据挖掘新应用,机器翻译系统 大数据+机器学习+语言学 Google、微软等均提供了基于统计的机器翻译系统 统计机器翻译系统的基础 超过1百万个单词的双语文本语料库 超过10亿个单词的语种语料库 从两个语料库训练的统计模型,2018/11/14,数据库研究所,74,大数据时代带来的数据挖掘新应用,机器翻译系统,2018/11/14,数据库研究所,75,大数据对数据挖掘技术的影响,新的分布式、 并行计算平台,新的异构信息 的融合技术,强调对数据的理 解和深度分析,在线数据挖掘技术,2018/11/14,数据库研究所,76,谢谢! 请指正!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报