1、金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程,郑宇庭 谢邦昌 程兆庆台湾政治大学资料采矿中心,2018/10/17,2,报告大纲,研究目的 分析工具 建模流程 结论与建议 Q&A,2018/10/17,3,研究目的,有效地筛选出偿债能力不佳的个人信用卡客户,依此开发出一套信用风险系统,以帮助银行做出正确的核卡决策。这个系统的开发、维护、与更新的成本预期将比银行现有系统的成本低。,2018/10/17,4,分析工具,Microsoft SQL Sever 2005 价格 自动化以及开发延伸程度 目前SPSS跟微软之间是采取合作的态度,2018/10/17,图表来源:杨自强 企业如
2、何应用商业智慧来提升执行力与竞争力,5,建模流程:CRISP-DM,DATA MINING 执行阶段,商业理解,资料理解,资料准备,建模,评估,发布,资料源,DATA MINING 处理流程,2018/10/17,图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力,6,微软商业智慧解决方案,SSIS分析服务 报表服务,分析服务 (Data Mining),资料来源检视表(Data Source View),整合性 服务 (SSIS),商业理解,资料理解,资料准备,建模,评估,发布,资料源,资料源,2018/10/17,7,资料采矿无处不在,2018/10/17,8,商业理解(Busin
3、ess Understanding),厘清商业问题 目前呆帐率是多少? 信用卡审核流程? 信用卡评分模型=分类模型,2018/10/17,9,资料理解(Data Understanding),资料来源 某银行2000.1.12002.6.30的信用卡资料 数据内容 申请数据文件 缴款纪录文件 总共有1220个变数,502,333笔原始资料 违约户定义 缴款期间曾经有逾期60天以上未缴之卡户,2018/10/17,10,建模流程图,选择2001.42001.6,原始资料,清除遗漏值、异常值,数据转换,误差抽样,训练组,测试组,建模,评估,评估,2018/10/17,11,资料准备(Data Pr
4、eparation),选择合理的建模变量 基本数据 性别、教育程度、职业别 联合征信中心(JCIC)的资料 被查询总家数、延迟月数比率 与银行往来的资料 申请卡别类型、有没有使用扣款服务,2018/10/17,12,资料准备(Data Preparation),选择合理的建模时间 时间间隔取为12个月至18个月 清除遗漏值、异常值 数据转换 连续型转成离散型:被查询总家数 合并变项太多之变量:职业别 衍生新的变数,2018/10/17,13,2018/10/17,14,建模(Modeling),误差抽样(Over-Sampling) 将稀有事件透过抽样的方式将其比重提高 多的少抽(Reduce
5、):正常户抽取率0.1 违约户抽取率1 将资料分成训练组与测试组 避免过度学习(Over-fitting) 建模方法选择 罗吉斯回归、决策树、类神经网络,Data Mining Model Evaluation,2018/10/17,16,Data Mining Model Evaluation,分类矩阵 横轴为预测结果,纵轴为实际结果 增益图 横轴为名单百分比,纵轴为累积占全体之百分比 收益图 根据成本以及销售成功利润,并计算出累积利润图 散布图 针对连续变量,可以利用此功能了解实际值与预测值间之差异性以及预测之趋势变动情形,2018/10/17,17,Data Mining Model E
6、valuation,说明: 在进行模型效益评估前必须先选入数据表,并在模型中勾选要进行评估比较之模型,2018/10/17,18,Data Mining Model Evaluation,分类矩阵,2018/10/17,19,Data Mining Model Evaluation,增益图,增益图: 主要展现在整体的百分上所累积的效益状况,2018/10/17,20,Data Mining Model Evaluation,收益图,收益图: 可根据所设定之固定成本、单位成本以及单位营收加以计算,找出最佳获利点,2018/10/17,21,Data Mining Model Evaluation
7、,散布图,2018/10/17,22,评估(Evaluation),增益图(lift chart),2018/10/17,23,评估(Evaluation),分类矩阵(classification matrix)衡量指标 Precise = a/a+b Recall = a/a+c Accuracy = a+d/a+b+c+d,2018/10/17,24,发布(Deployment),产生预测的违约机率值 单一查询 整批查询,2018/10/17,25,结论与建议,本研究以罗吉斯回归模型预测能力最好本研究目的在于帮助作核卡的决策,另外有一些主题可供继续研究 核卡后 针对缴费情况的变化,再建构一预测违约模型,以预防违约发生。 已违约 建立一处理催收顺序的模型,2018/10/17,26,Q&A,欢迎提出问题讨论,