ImageVerifierCode 换一换
格式:DOCX , 页数:4 ,大小:18.83KB ,
资源ID:15404410      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-15404410.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(如何评估和应用监督模型.docx)为本站会员(拉拉链)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

如何评估和应用监督模型.docx

1、如何评估和应用监督模型 在生产系统中使用监督模型进行预测之前,评估监督模型的质量很重要。用户可以选择针对问题的最佳模型,并用它来预测应用数据集的目标值。 为了测试监督模型,将历史数据分成两个数据集,一个用于构造模型,另一个用于测试模型。测试数据集实例通常不用于构造模型,目的是为了真正评估模型的预测正确性。JDM为分类模型支持四种流行的测试度量: 预测准确率、模糊矩阵、受试者工作特征(ROC)和提升率。这些度量的计算方式是通过比较预测目标值和实际目标值。这里探讨在ABCBank客户流失问题这一环境下的这些测试度量。 评估分类模型的质量 在客户流失问题中,假定测试数据集有1000个实例,分类模型正

2、确预测了910个实例、错误预测了90个实例。那么模型预测该数据集的准确率为910/1000 = 0.91,即91%。 假设在910个正确的预测中,750个客户是非流失客户,剩余160个是流失客户。在90个错误的预测中,60个被预测为流失客户,而实际上是非流失客户;30个被预测为非流失客户,而实际上是流失客户。为此,我们使用名为模糊矩阵的方法。模糊矩阵是一张二维的NN表,表明了分类模型对特定测试数据进行的正确预测和不正确预测的数量,其中N代表目标属性值的数量。之所以被称为模糊矩阵,因为它指出了模型在何处变得模糊,即做出不正确的预测。 虽然在本例中模糊矩阵度量的是目标值的错误分类,但错误否定的成本

3、是错误肯定的三倍。为了从业务角度评估模型质量,除了准确率外,我们还需要度量成本。如果指定了成本矩阵,考虑成本值来度量性能、选择成本值最小的模型很重要。 受试者工作特征(ROC)是比较分类模型质量的另一个方法。ROC图把错误肯定率放在X轴上、把真肯定率放在Y轴上,如图1所示。其中,错误肯定率是错误肯定数量与实际否定总数之比。同样,真肯定率是真肯定数量与实际肯定总数之比。 想绘制ROC图,测试任务就要确定在不同概率阈值下,错误肯定和真肯定的比率。超过概率阈值预测的肯定目标值的概率就被认为是肯定预测。不同的概率阈值导致出现不同的错误肯定率和真肯定率。如图1(a)所示。 图1(b)显示了两个分类模型在

4、不同概率阈值下绘制的ROC曲线。如果错误肯定率不同,这些模型的性能也不同。ROC曲线下方面积越大,模型性能一般越高。 提升率和累积增益也是评估分类模型效果的常用度量。提升率是使用分类模型获得的结果与使用随机选择获得的结果之比。累积增益是由模型通过数据分位数(quantile)决定的肯定响应比例。实例通常分成10个或者100个分位数,可以根据这些分位数得出提升率和累积增益,如表1所示。提升图和累积增益图往往用做评估性能模型的直观教具。了解累积提升和累积增益的计算方式有助于了解累积提升和累积增益图,如图2所示。 获得预测结果 使用测试数据评估了模型性能后,用户可以选择针对问题的最佳模型,并用它来预

5、测应用数据集的目标值。有些算法可能在最终模型中使用输入属性的一个子集。这个属性子集称为模型特征(model signature),它可以从模型中获取,确定应用模型需要哪些属性。 本文利用简单的决策树模型来演示模型应用操作。该模型有三个输入属性:年龄、资本收益和平均储蓄余额,如上文B23版表2所示。模型只用了其中的两个属性:年龄和平均储蓄余额,如图3所示。这两个属性构成了模型特征。因而,要使用这个模型,该模型的应用数据集只需要包含有年龄和平均储蓄余额两个属性值的实例。要了解应用过程,不妨考虑有两个客户实例:客户Jones和Smith的应用数据集,如表2所示。 分类应用操作可以使用各种内容来生成预

6、测结果,譬如预测类别、概率、成本。在JDM中,可通过各种形式显示应用预测结果,譬如顶层预测细节、顶节点或底节点预测等。预测结果的选择取决于问题需求以及用户想看到的信息类型。在本例中,我们生成了顶层预测值及对应的概率和成本,以确认流失客户。 即使将模型应用到数据集上很常见,但如果客户属性发生变化,预测和概率可能会随之变化。譬如说,如果客户打电话给银行要求把大笔资金从储蓄账户转到另一家银行,呼叫中心的应用系统就会显示预先计算的预测,表明该客户可能会流失。这基于客户的前一个账户余额。如果转账,这可能会改变模型对该客户的预测。因此,根据最新数据实时重新评估客户很有用。这可以使用JDM的单记录应用功能就可以实现,旨在提供实时响应机制。第 4 页 共 4 页

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报