ImageVerifierCode 换一换
格式:PPT , 页数:28 ,大小:2.49MB ,
资源ID:3505491      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-3505491.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘软件与工具.ppt)为本站会员(Facebook)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

数据挖掘软件与工具.ppt

1、数据挖掘软件与工具,2018/11/8,知识管理与数据分析实验室,1,数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。 数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。,2018/11/8,知识管理与数据分析实验室,2,一、数据挖掘软件重要研究方向,3,二、数据挖掘软件的发展,数据挖掘功能,数据挖掘,估计Estimation,分类Classification,预测Prediction,关联规则Association Rules,描述与可视化D

2、escription and Visualization,聚类Cluster,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis),,5,数据挖掘技术的分类,,6,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据

3、此决定是否向客户发放贷款,发放多少 结果描述:(决策树),,7,收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性结果描述:(神经网络),,8,输 入,流失概率 (0.87),输 出,男,29,3000元/月,套餐A,130元/月,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),,9,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户结果描述:(Koholen聚类),,10,数据挖掘的典型结果政府,问题描述:如何从众

4、多申请经费或者纳税中发现欺诈结果描述:(回归、神经网络),,11,Business Understanding,商业理解过程 理解商业目标 熟悉业务流程 统一业务术语 成本/收益分析 当前系统评估 主要用户使用者 结果的输出形式 挖掘任务的结果和现有系统的集成 任务分解 挖掘目标分解为子任务 将商业目标转化为数据挖掘任务 约束条件确认 资源 数据保护制度等 制定项目计划,Data Understanding,数据理解过程 数据源情况 数据处理范围 数据源访问情况 数据描述 数据质量描述 基本统计值/汇总值 数据探索 数据分布 相关性分析 缺失值处理 空值处理 奇异值处理,Data Prepar

5、ation,数据准备过程 数据整合 多个数据表的数据联合 数据的汇总和聚合 数据选择 记录的选择和排除 数据集合构成:测试集,检验集 数据转换 函数转换 标准化处理 离散化处理 数据清洗 数据缺失值处理 数据派生 新变量的生成,Modeling,数据建模过程 选择合适的建模技术 数据预处理的情况 依赖于数据挖掘问题类型和输出形式 构建模型训练环境 训练样本的构建 模型建立 选择初始化参数设置 模型估计 考虑过训练的情况 误差分布的调查 模型参数修正及其原因,Evaluation,模型评估过程 模型评估 根据专家的知识和经验进行人工评估 从商业角度来评价结果的有效性 定义参照对象 计算升益曲线(

6、Lift Curve) 期望的投资回报率(ROI) 对整个数据挖掘过程进行回顾 决定下一步骤 模型发布的时机 发布框架结构 进一步改进模型,Deployment,模型发布过程 数据挖掘结果的发布方式 模型的结果输出到数据库 形成简单的报表 结果转化为可解释的业务规则 在线实时地模型评分过程 数据的输入输出 与原有业务系统的集成 实时数据的来源和结果反馈 模型运用的模式 实时处理 批处理 自动化问题(周期),Clementine的软件构成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack;

7、Clementine Solution Publisher (Optional)。,,18,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器不联网; 无Clementine Server可供使用。以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,,19,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组

8、织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器配置高。,Clementine的系统结构,,20,Clementine的三层结构: 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine

9、Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language )之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列 特点: 图形化界面 与客户直接交互 适合交互式分析过程,,21,命令行方式 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者数据库中

10、 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,Clementine的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过7类结点的连接完成数据挖掘工作,它们是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,,22,七大类节点,按功能分为七大类节点 数据源节点 记录处理节点 变量处理节点 图形节点 模型节点 输出节点 导出节点,图形,基本版产生图形种类,记录和变量的处理,对于记录的处理对于变量的处理DEMO 数据探索 数据清洗,丰富的数据挖掘模型,聚类算法模型,关联分析模型,使用演示,2018/11/8,知识管理与数据分析实验室,28,Thank You!,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报