1、SPSS数据挖掘二零一三年五月 目录二、 SPSS工具介绍三、数据挖掘模型 CRISP方法一、数据挖掘介绍四、 SPSS工具数据挖掘(神经网络)什么是数据挖掘1. 通过采用 自动或半自动 的手段,在 海量数据中发现有意义的 行为和规则 的探测和分析活动。2. 数据挖掘是一门科学,有科学的方法和模型作为基础3. 数据挖掘又是一门艺术,需要使用者对商业问题的深入理解和模型适用条件深刻的认识数据挖掘的商业思路更好的数据更好的数据挖掘结果挖掘结果!知识知识商业问商业问 题题? 行业经验行业经验数据挖掘的技术思路? !商业问题解决方案数据挖掘问题商业问题目录二、 SPSS工具介绍三、数据挖掘 CRISP
2、方法一、数据挖掘介绍四、 SPSS工具数据挖掘(神经网络)SPSS Clementine功能1. 建立客户档案并且计算出客户保持率。2. 探查并预测公司中的欺诈行为。3. 确定和预测网站数据中有价值的访问顺序。4. 预测销售和增长的未来趋势。5. 描述直邮的回应和信用风险。6. 对流失进行预测 ,分类和分割。7. 详细审查自动产生的大量数据 , 并发现有用模式。 数据流程区选项面板管理器项目区报告 窗口 状态窗口SPSS Clementine操作界面目录二、 SPSS工具介绍三、数据挖掘 CRISP方法一、数据挖掘介绍四、 SPSS工具数据挖掘(神经网络)CRISP-DM介绍跨行业数据挖掘标准
3、流程( Cross-Industry Standard Process for Data Mining)。 SPSS和 NCR在 1996年为克莱斯勒做数据挖掘时订出的一套标准流程。 商业理解 数据理解 数据准备 建立模型 模型评估 模型发布SPSS Clementine完全遵循 CRISP-DM标准,提供完善的项目管理功能,对数据挖掘从商业理解到结果发布的全过程进行有效的管理。商业理解文档部署应用“D“ streams数据理解“E“ streams探测数据准备“P“ streams建模和评估“M“ streams目录二、 SPSS工具介绍三、数据挖掘 CRISP方法一、数据挖掘介绍四、 SP
4、SS工具数据挖掘(神经网络)神经网络( goodlearn)l神经网络是一种仿生物学技术,通过建立不同类型的神经网络可以对数据进行预存、分类等操作。l示例 goodlearn通过对促销前后商品销售收入的比较,判断促销手段是否对增加商品收益有关。 Clementine提供了多种预测模型。这里我们用l神经网络结点建模,评价该模型的优良以及对新的促销方案进行评估。本示例的数据文件保存为 GOODS1n,我们向数据流程区添加 Var. File结点,并将数据文件读入该结点。第一步:读入数据向数据流增加一个 Derive结点,将该结点命名为Increse。在公式栏中输入 (After - Before)
5、 / Before * 100.0以此来计算促销前后销售额的变化。第二步:计算促销前后销售额的变化率添加一个 Type结点到数据流中。由于在制定促销方案前我们并不知道促销后商品的销售额,所以将字段 After的 Direction属性设置为 None;神经网络模型需要一个输出,这里我们将 Increase字段的 Direction设置为 Out,除此之外的其它结点全设置为 In。第三步:数据设置字段格式 在设置好各个字段的 Direction方向后我们将 Neural Net结点连接入数据流。 在对 Neural Net进行设置时我们选择快速建模方法( Quick),选中Prevent ove
6、rtraining防止过度训练。同时我们还可以根据自己的需要设置训练停止的条件。第四步:神经网络学习过程将 Increase结果结点连接在数据流中的 Type结点后。第五步:训练网络建立评估模型向数据流中增加 Derive结点并将它命名为 ratio,然后将它连接到Increase结果结点。设置该结点属性,将增添的字段的值设置为(abs(Increase - $N-Increase) /Increase) * 100,其中 $N-Increase是由神经网络生成的预测结果。通过该字段值的显示我们可以看出预测值与实际值之间的差异大小。第五步:训练网络建立评估模型 可以通过观察预测值与实际值之间的
7、差异来评价模型的优劣。从Graph栏中选择 histogram结点连接到 ratio结点。 设置该结点,使其输出显示 ratio的值(在 field的下拉列表中选择ratio),输出结果如下图所示:第五步:训练网络建立评估模型预测模型建立该模型的建立就是为了预测新样本。我们现将数据源的文件改为GOODS2n;然后按住 alt键双击 Increase结点以此来绕过该结点;断开 Increase结果结点与 Ratio结点之间的连接,再增添一个 Table结点观察 Increase结果结点的输出。在 Type结点中我们只设置字段 after的Direction属性为 None,其余的都为 In。通过
8、这种方法建立好的数据流如下图所示:右键单击 Table结点,选择运行数据流。运行生成的结果如下,其中 $N-Increase为预测结果第六步:模型预测输出规范化$N-Increase栏表示促销后销售额可能增减的比率。由于神经网络的最终输出需要规范到 0,1区间,所以我们选择输出值在 (0,1)内连续的 S形函数将结果规范化。 S型函数表达式为 。我们通过增加Derive结点将结果其规范化。第六步:模型预测选择促销方案 :根据神经网络模型的预测输出,我们可以选出 GOODS2n文件中包含的可执行促销方案。假定预测结果经规范化后结值 1的方案为可执行方案,我们需要增加一个结点来选出满足这些条件的结点。 Clementine为我们提供了 Select结点,它可以从数据集中筛选出满足预定条件的记录 ,从 Record OPs栏内选择Select结点连接到 Format结点后,在它的属性设置中选择包含format 1.000的结点,整个流程图如右图所示:第六步:模型预测运行数据流后我们将得到可用于促销的方案。结果图如下所示:第六步:模型预测25谢谢!