1、数据挖掘维基百科,自由的百科全书跳转到: 导航, 搜索 汉漢显示数据挖掘(英语: Data mining),又译为数据采矿、数据挖掘。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于 Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。目录 1 定义 2 方法 3 例子 4 历史 5 数据捕捞 6 数
2、据挖掘的过程 o 6.1 挖掘 o 6.2 结果验证 7 隐私的关注 8 算法 9 组合博奕数据挖掘 10 商业解决方案 11 参考文献 o 11.1 参考书 12 外部链接 13 参见 编辑 定义数据挖掘有以下这些不同的定义:1. “从数据中提取出隐含的过去未知的有价值的潜在信息” 1 2. “一门从大量数据或者数据库中提取有用信息的科学。” 2 尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。编辑 方法数据挖掘的方法(Strategy)包括监督式学习、非监督式学习、关系分组(Affinity Grouping,作关系性的分析)与购物篮分析
3、(Market Basket Analysis)、同值分组(Clustering)与描述(Description)。监督式学习包括:分类(Classification)、推估(Estimation)、预测(Prediction)。编辑 例子数据挖掘在零售行业中的应用:零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时数据挖掘系统就在此客户和真丝衬衣之间创建关系。销售部们就会看到此信息,直接发送真丝衬衣的当前行情,以及所有关于真丝衬衫的资料发给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息,并且扩大经营范围。编辑 历史数据挖掘是因为海量有用数据快速增长的产
4、物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。 1980 年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言( Structured Query Language, SQL)发展起来。数据仓库开始用来存储大量的数据。因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据统计分析和人工智能搜索技术。编辑 数据捕捞通常作为与数据仓库和分析相关的技术,数据挖掘处于它们的中间。然而,有时还会出现十分可笑的应用,例如发掘出不存在但看起来振奋人心的模式(特别的因果关系),这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关系,在统计学
5、文献里通常被戏称为“数据捕捞”( Data dredging, data fishing, or data snooping)。数据挖掘意味着扫描可能存在任何关系的数据,然后筛选出符合的模式,(这也叫作“过度匹配模式”)。大量的数据集中总会有碰巧或特定的数据,有着“令人振奋的关系”。因此,一些结论看上去十分令人怀疑。尽管如此,一些探索性数据分析 还是需要应用统计分析查找数据,所以好的统计方法和数据数据的界限并不是很清晰。更危险是出现根本不存在的关系性。投资分析家似乎最容易犯这种错误。在一本叫做顾客的游艇在哪里?的书中写道:“总是有相当数量的可怜人,忙于从上千次的赌轮盘的轮子上查找可能的重复模式
6、。十分不幸的是,他们通常会找到。” 3多数的数据挖掘研究都关注于发现大量的数据集中,一个高度详细的模式。在大忙人的数据挖掘一书中, 西弗吉尼亚大学和不列颠哥伦比亚大学研究者讨论了一个交替模式,用来发现一个数据集当中两个元素的最小区别,它的目标是发现一个更简单的模式来描述相关数据。 4编辑 数据挖掘的过程数据预处理一般包括包括数据清理、数据集成、数据变换和数据规约四个处理过程编辑 挖掘编辑 结果验证编辑 隐私的关注与数据挖掘有关的,还牵扯到隐私问题,例如:一个雇主可以通过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。然而,这种做法会导致伦理和法律问题。对于政府和商业数
7、据的挖掘,可能会涉及到的,是国家安全或者商业机密之类的问题。这对于保密也是个不小的挑战。 5数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在 1000 人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命;但这当中还是存在着数据库可能被滥用的问题。数据挖掘实现了用其他方法不可能实现的方法来发现信息,但它必须受到规范,应当在适当的说明下使用。如果数据是收集自特定的个人,那么就会出现一些涉及保密、法律和伦理的问题。 6编辑 算法先验算法(英语: Apriori algorithm)是数据挖掘中最基本的算
8、法。编辑 组合博奕数据挖掘编辑 商业解决方案(按照字母顺序排列) IBM DB2 通用数据库 数据仓库版 KDnugget 数据挖掘软件列表 MATLAB 微软数据库 SQL Server Saksoft SAS 编辑 参考文献1. W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). “Knowledge Discovery in Databases: An Overview“. AI Magazine: pp. 213-228. ISSN 0738-4602ISSN 0738-4602. 2. D. Hand, H.
9、 Mannila, P. Smyth (2001). “Principles of Data Mining“. MIT Press, Cambridge, MA. ISBN 0-262-08290-X . 3. Fred Schwed, Jr (1940). “Where Are the Customers Yachts?“. ISBN 0-471-11979-2 . 4. T. Menzies, Y. Hu (November 2003). “Data Mining For Very Busy People“. IEEE Computer: pp. 18-25. ISSN 0018-9162
10、ISSN 0018-9162. 5. K.A. Taipale (December 15, 2003). “Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data“. Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 . 6. Chip Pitts (March 15, 2007). “The End of Illegal Domestic Spying? Dont Count on It“. Wash. Spec. 编辑
11、 参考书 数据挖掘:概念与技术,Jiawei Han、Micheline Kamber 等著,机械工业出版社, 2001 年。 ISBN 1-55860-489-8。 最负盛名的数据挖掘著作,但版本较老,对读者的计算机尤其是数据库背景要求较高。 数据挖掘导论, Pang-Ning Tan, Michael Steinbach 等著,范明、范宏建等译,人民邮电出版社, 2006 年。 ISBN 7-115-14698-5 。图灵教育 最新出版的数据挖掘著作,其写作目的是“尽可能直接地学习数据挖掘,以便尽快地将其应用到各自的领域”。覆盖了多学科应用实例,对读者数学和计算机背景要求较低。 数据挖掘,
12、丁一贤、陈牧言合著,沧海出版社, 2005 年。 ISBN 986-7777-98-0 。沧海书局 Yuchun Lee et al. (1998), “Solving Data Mining Problems Through Pattern Recognition“ , ISBN 0-13-095083-1 Oded Maimon and Mark Last (2000), “Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology“, Kluwer Academic Publishers.
13、ISBN 0-7923-6647-6 Sholom Weiss and Nitin Indurkhya(1998). “Predictive Data Mining“. Morgan Kaufman. ISBN 1-55860-403-0 Ian Witten and Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations“ (2000), ISBN 1-55860-552-5, (see also Free Weka software) 编辑 外部链
14、接 SearchCRM.com Original daily breaking news, white papers, expert advice, webcasts, product reviews and more on data mining. 数据挖掘简介(TwoC) Comprehensive data mining white papers and tutorials () SQLServerDataMining SQL Server 2005 数据挖掘相关信息和交互式演示 CRM Today数据挖掘 数据挖掘白页,论文,演示和学术论文 Data Mining whitepaper
15、s, webcasts and case studies KDnuggets 数据挖掘,知识发现,普通挖掘,Web 挖掘目录 数据挖掘 Siebel 公司的软件 Kmining 数据挖掘和 KDD 科学会议列表 数据挖掘 向导 数据挖掘和数据仓库 数据挖掘指导 Weka Java 语言版开放源代码数据挖掘软件 数据流挖掘书目 数据流挖掘的相关内容,技术和应用 Orange C+和 Python 语言编写的开放源代码数据挖掘软件 Data Mining Program, University of Central Florida Future of Data Mining 数据挖掘的未来, Ha
16、ri Mailvaganam, http:/ (2004 年 12 月) 编辑 参见 人工智能 神经网络 商务智能 商务性能管理 数据流挖掘 数据库 数据仓库 决策树 描述统计学 文件仓库 模糊逻辑 假设检验 线性判断分析 Logit (关于 Logit 模型 logistic regression) Loyalty card 机器学习 数据聚类(Data clustering) 最近临域 (模式识别) 模式识别 主成分分析 回归分析 相关数据挖掘 统计 文本挖掘 关系式规则(Association rule) 在线分析处理 决策支持系统 显示 查 论 编计算机科学主要领域来自“http:/zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98”3 个分类: 数据挖掘 | 人工智能 | 人工智能应用1 个隐藏分类: 含有英语的条目