收藏 分享(赏)

预言型数据挖掘.doc

上传人:精品资料 文档编号:8595077 上传时间:2019-07-04 格式:DOC 页数:2 大小:15KB
下载 相关 举报
预言型数据挖掘.doc_第1页
第1页 / 共2页
预言型数据挖掘.doc_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、预言型数据挖掘数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。建立这个模型可能需要各种各样的源数据,包括交易记录、顾客历史数据、人口统计信息、进程控制数据、和市场相关的外部数据等,比如:信用卡公司提供的数据、天气数据等。模型是模式和数据间相关性的形式化描述。为了防止混淆,我们把数据挖掘概念划分为几个层次 商业目标 预言的种类 模型的类型 算法 产品最高层是商业目标:数据挖掘的最终目的是什么?比如:希望用数据挖掘技术留住你的有价值的客户,你可能先要建立一个模型来预测每个客户所能带来的利润,然后再建立一个模型来确定哪些客户可能会离开。充分了解你所在企业的需求和目

2、标有助于你建立这样的目标。下一步是决定最合适的预言的种类:(1)分类:预测一个特定的客户或事件属于哪一类;(2)回归(regression):预测一个变量的值(如果此变量随事件变化,可成为时间序列预测)。在上面的例子中你可以用回归来预测利润的大小,用分类预测哪些客户会离开。后面我们会详细讨论。现在你可以选择模型的类型:用神经网络来做回归,决策树做分类,还是用统计模型,如:逻辑回归,偏差分析,普通线性模型等。下一章我们要详细讨论这些模型。每种模型都可以用不同的算法来实现,比如,可以用回馈函数或 radial basis 函数来建立神经网络;决策树有 CART,C5.0 ,QUEST,CHAID

3、等。在选择数据挖掘软件产品时,要注意这些软件所采用的算法虽然名称可能完全一样,但他们的实现方法通常都是不一样的。这些对算法的不同实现影响了软件对内存、硬盘的需求的不同,和性能上的差异。大部分的商业目标都可以用各种不同的模型及相异的算法来解决。通常在你还没有试过任何数据挖掘算法之前,很难决定那种对你来说是最好的。一些术语在预言模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量;用于预测的输入变量是预测变量或独立变量。一些预言模型是通过那些已知目标变量值的历史数据训练出来的。这种训练有时也称为带指导的学习,因为是通过给出一些已知答案的问题(已知结果的数据)来让他“学习”。相对应的,

4、还有不带指导的学习,如上面提到的描述型数据挖掘(在运行之前,算法对数据一无所知)。分类分类要解决的问题是为一个事件或对象归类。在使用上,既可以用此模型分析已有的数据,也可以用它来预测未来的数据。例如,用分类来预测哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或在医疗领域当遇到一个病例时用分类来判断一下从哪些药品着手比较好。数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。如,已经不再接受服务的用户,你很可能还保存了他们在接受服务时的历史记录。训练集也可以是通过实际的实验得到的数

5、据。比如你从包含公司所有顾客的数据库中取出一部分数据做实验,向他们发送介绍新产品的推销信,然后收集对此做出回应的客户名单,然后你就可以用这些推销回应记录建立一个预测哪些用户会对新产品感兴趣的模型,最后把这个模型应用到公司的所有客户上。回归回归是通过具有已知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是象线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。一般同一个模型既可用于回归也可用于分类。如 CART 决策树算法既可以用于建立分类树,也可建立回归树。神经网络也一样。时间序列时间序列是用变量过去的值来预测未来的值。与回归一样,他也是用已知的值来预测未来的值,只不过这些值的区别是变量所处时间的不同。时间序列采用的方法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集。比如你可以用前六天的数据来预测第 7 天的值,这样就建立了一个区间大小为 7 的窗口

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报