收藏 分享(赏)

基于gradient boosting算法的小企业信用风险评估.doc

上传人:无敌 文档编号:170762 上传时间:2018-03-23 格式:DOC 页数:10 大小:136KB
下载 相关 举报
基于gradient boosting算法的小企业信用风险评估.doc_第1页
第1页 / 共10页
基于gradient boosting算法的小企业信用风险评估.doc_第2页
第2页 / 共10页
基于gradient boosting算法的小企业信用风险评估.doc_第3页
第3页 / 共10页
基于gradient boosting算法的小企业信用风险评估.doc_第4页
第4页 / 共10页
基于gradient boosting算法的小企业信用风险评估.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、基于 Gradient Boosting 算法的小企业信用风险评估 杨俊 夏晨琦 中国建设银行上海数据分析中心 摘 要: 信用风险是导致银行破产的主要原因之一。传统上基于专家规则的信用风险评分模型虽然具有较好的业务解释性, 但对建模人员的业务经验和理论水平有较高要求, 也无法挖掘变量之间复杂的相关关系从而实现完全的数据驱动建模。本文使用 GradientBoosting 算法对我行小企业信贷客户数据建模, 并和逻辑回归以及专家规则模型进行横向比较和分析。实验结果表明, 以违约样本召回率和 ROC 为模型评估指标, GradientBoosting 算法的模型精度和模型稳定性显著优于另外两种模型

2、, 另外, GradientBoosting 和逻辑回归两种基于机器学习的模型表现要明显好于专家规则模型。关键词: 信用风险; 信用评分; 梯度提升; 逻辑回归; 专家规则; 作者简介:杨俊 (1983-) , 男, 江西上饶人, 中国建设银行上海数据分析中心, 信息技术工程师, 研究方向:信用评分、数据库营销、机器学习;作者简介:夏晨琦 (1986-) , 男, 上海人, 中国建设银行上海数据分析中心, 信息技术工程师, 研究方向:信用评分、数据库营销、机器学习。Credit Risk Assessment Model For Small Enterprises Based on Gradi

3、ent Boosting AlgorithmAbstract: Credit risk is one of the main causes leading to bank insolvency. Traditional credit scoring model based on expert rules has good business interpretation, but raises high requirement of business experience and statistical theory acquaintance for modelers, besides, it

4、can not uncover the complex relationship between variables so as to accomplish fully data driven modeling. In this paper, expert rules and machine learning algorithms based on Gradient Boosting and Logistic Regression are used to model the samples of small enterprises customers of ccb. Experimental

5、results show that with the use of recall for default clients and ROC, Gradient Boosting is superior to logistic regression and expert rules in both model accuracy and model stability, besides, machine learning algorithms have gained great advantage over the expert rules.Keyword: Credit Risk; Credit

6、Scoring; Gradient Boosting; Logistic Regression; Expert Rules; 一、引言金融业是现代经济运行的血液, 而国有商业银行作为金融业最重要的组成部分, 其运营安全性和稳定性历来是监管部门关注的重点, 也是理论界和实业界研究的热点。巴塞尔新资本协议将商业银行面临的主要风险定义为信用风险、市场风险和操作风险, 其中, 信用风险是最主要和最复杂的风险。信用风险或者说违约风险, 是指债务方或交易对手无力履行合同所规定的义务或信用质量发生变化, 影响金融产品价值, 从而给债权人或金融产品持有人造成经济损失的风险 (王颖和聂广礼等, 2012) 。世

7、界银行对全球银行业危机的研究表明, 导致银行破产的一个主要原因是信用风险, 因此, 如何有效地评估和防范以债务方违约为主要特征的信用风险就显得尤为重要。巴塞尔新资本协议对信用风险的计量提出了标准法和内部评级法, 要求有条件的银行实施内部评级法, 通过对历史数据构建模型以预测客户的违约概率。而由银监会下发的商业银行资本管理办法整合了巴塞尔资本协议和巴塞尔资本协议, 形成了中国版的巴塞尔协议, 要求商业银行应当为信用风险的内部评级法建立验证体系, 确保资本充分反映风险水平。此前, 国内对商业银行信用风险的研究主要集中在宏观层面和制度层面, 但在巴塞尔新资本协议和商业银行资本管理办法出台后对违约概率

8、等风险要素的关注在逐步加强。作为商业银行资本管理办法核准的首批六家使用资本计量高级方法的银行之一, 近年来, 随着我行小企业信贷客户数量和贷款规模的迅速扩大, 提高系统化的贷后监测能力和降低贷后管理成本成为亟待解决的问题。中国建设银行于 2009 年开始开发小企业早期预警专家规则模型, 该模型具有业务解释性好、打分简便以及可在样本缺乏的情况下做出定量估计的优点, 但同时也存在两个无法回避的缺点:1、专家规则模型严重依赖于建模人员的业务实践经验和统计理论水平, 选取的指标常常受业务直觉掣肘, 而实践中由数据反映的模式和业务经验相违背的场景并不鲜见, 因此较难保证模型的客观性和准确性。2、受制于建

9、模人员专业知识背景和所属业务条线限制, 专家规则模型通常只使用特定业务数据建模。如信用卡行为评分建模一般只采用客户人口统计数据和信用卡消费、取现及还款等数据, 而未纳入客户在行内其它业务条线如借记卡、理财、房贷等数据, 而这些数据实际上也从另一个角度反映了信用卡客户的信用风险水平。另外, 当样本特征维度很高时, 自变量和目标变量之间常常存在着复杂的非线性关系, 自变量之间也可能存在复杂的交互作用, 而这些信息通常很难被业务经验所挖掘。鉴于上述缺点, 且伴随着近年来大数据分析和互联网金融行业的兴起, 基于机器学习的信用风险评分模型在金融业得到了广泛应用, 取得了不错的效果。如业界知名的 Fair

10、 Issac 公司的 Fico 信用评分和阿里巴巴公司的芝麻信用分都采用了逻辑回归模型, 此外, 随着金融行业对机器学习和黑盒模型接受度的提高, 一些更复杂且分类效果更好的模型如人工神经网络和随机森林也开始在信用风险评分领域得到研究和应用 (林成德和彭国兰, 2007) 。近年来, Gradient Boosting 算法 (以下简称 GBM 算法) 在 Kaggle 和 KDDCup 等数据挖掘竞赛中取得了优异成绩, 如在 2015 年 KDDCup 竞赛中排名前十的模型均使用GBM 算法建模, 此外, GBM 算法在互联网行业也应用广泛, 如 Facebook 公司使用 GBM 算法进行在

11、线点击率的预测 (He 等人, 2014) , 腾讯公司则将 GBM 和逻辑回归的融合模型应用于在线购物的推荐预测。相对而言, 商业银行在应用新算法方面则较为保守, 截至目前, 仍未见有国内银行在信用风险评分领域使用GBM 算法建模。针对上述情况, 本文提出了基于 GBM 算法的信用风险评分模型, 对中国建设银行 2015 年 6 月至 2016 年 9 月的小企业信贷客户数据进行了建模, 在数据可获得和可量化的基础上, 针对模型解释性和模型泛化性展开了对比和分析, 取得了较好的结果。二、GBM 算法简介GBM 算法于 2001 年由斯坦福大学的 Friedman 教授提出, 算法结合了 bo

12、osting和 gradient descent 思想, 通过前向逐步的方式学习加法模型:其中 m 为迭代数, 目标是在第 m 轮迭代通过最小化损失函数 L (y, F) 学习参数 m和 m:在机器学习领域, (1) 、 (2) 被称为 boosting 算法, h (x;) 被称为基分类器 (Freund 等人, 1996) 。仅给定 L (y, F) 和 h (x;) 的形式无法直接求解公式 (2) , 假定 Fm-1 (x) 已知, 可通过 steepest-descent 优化算法求解mh (x;m) (Friedman, 2001) , 即:公式 (3) 给出了 Fm-1 (x) 样

13、本空间的 steepestdescent 方向:即-gm=-gm (xi) , i=1, N, 通过拟合-gm 即可求解 m和 m:从而将公式 (2) 中复杂的函数优化问题转化为公式 (4) 中的最小二乘估计和公式 (5) 中的参数优化问题, 以前向逐步的方式实现了对任意可导函数 L (y, F) 的最小化。当目标变量为二值类型时, L (y, F) 通常选用负二项对数似然函数:算法伪代码如下:其中基分类器通常采用决策树。另外为防止过拟合, 在每轮迭代得到 rjm (xiRjm) 前乘以学习率 v (0v1) , M、J、v 等参数的最优值需通过交叉验证确定。相对于逻辑回归、判别分析、人工神经

14、网络等金融行业常用的统计建模算法, GBM 算法具有如下优点:1.不需要对连续类型自变量进行缺失值填补、单调变换或离散化。2.不需要对自变量进行特征选择或特征抽取。3.可以通过独热编码使用离散类型自变量建模。4.对于自变量或目标变量中的离群点具有很好的鲁棒性。5.模型训练速度快, 集成 boosting 思想使得 GBM 算法可以在模型迭代后期重点学习前期分类错误的样本。6.相对于 boosting 算法的鼻祖 Adaboost, GBM 算法不易受污染样本的影响, 模型健壮性高。7.通过集成成百上千棵决策树, 可以有效降低模型偏差, 模型不容易过拟合, 泛化能力较好。三、基于 GBM 算法的

15、信用风险评分模型创建及结果分析(一) 模型创建模型开发集选取中国建设银行 2015 年 6 月至 2016 至 6 月 (观察期) 表现正常的小企业信贷客户约 5.1 万户, 表现期设为 2016 年 6 月至 2016 年 9 月, 将在此期间发生违约的客户标为阳性样本, 其余标为阴性样本。考虑到小企业经营的特殊性, 基础变量采集范围涵盖了小企业注册信息、小企业抵押担保和信贷政策信息、小企业对公账户属性和交易信息、小企业主及其配偶人口统计信息、小企业主及其配偶账户属性和交易信息、小企业高管人口统计信息、小企业高管账户属性和交易信息。另外还纳入了小企业主及其配偶和小企业高管的 AUM、投资理财

16、、信用卡等分属于个人金融、投资理财、信用卡条线的数据。此外, 考虑到小企业的经营状况和违约概率与企业及企业相关利益人的资金变动情况息息相关, 因此对上述所述基础字段通过按月、季度、年的平均、汇总、差值、比例等方式生成众多衍生变量, 最终产生自变量共计968 个, 其中连续类型自变量 948 个, 其余 20 个为离散类型自变量。在准备好模型开发集后, 将其按 7 比 3 拆分为训练和验证集, 利用训练集拟合模型, 利用验证集评价和挑选最优模型。为同 GBM 算法进行横向对比, 另外使用传统的专家规则和逻辑回归进行了建模。模型评估指标采用召回率和 ROC。召回率也称为灵敏度, 表示在对样本进行打

17、分和降序排序后, 在特定深度 (预警样本占总体样本的比例, 也称为预警深度) 捕获的阳性样本占全体阳性样本的比例, 该比率越高表示模型在特定深度的阳性/阴性样本区分度越好, 本文将对三个模型在 5%、10%和 20%深度时的召回率进行比较;ROC 也称为 AUC, 是通过设定一系列打分阈值求取模型灵敏度和 1-特异度, 并计算 ROC 曲线下的面积, 目的是对模型整体的阳性/阴性样本区分度进行考察。ROC 取值区间为0, 1, 越接近 1 表明该模型区分度越好。1. 专家规则建模, 建模环境为 SAS9.4通过结合业务经验和单变量 KS 检验, 得到如下类决策树模型:图 1 专家规则模型 下载

18、原图其中位于根节点的存贷比指标反映了小企业的资金流入/流出比例。从 KS 检验角度出发, 这一指标在所有自变量中 KS 值最高, 表明该变量对于阳性/阴性样本区分度最好;从业务经验角度出发, 当企业流出金额远大于流入金额时, 可能意味着该企业的经营现金流出现问题, 违约概率也可能大幅提高, 事实上这一指标也是基层客户经理对所分管小企业客户现金流健康状况的一个重要考察指标, 因此该变量的使用也符合业务直觉。利用存贷比等于 0.005 这一阈值对开发集进行拆分, 并且递归地对左右两个分支分别使用企业月均 AUM (阈值为5000) 和企业现金覆盖流 (阈值为 10-5) 继续进行拆分, 上述三个自

19、变量的拆分阈值均取自 KS 曲线最大垂直间距对应的自变量取值。最终该模型捕获阳性样本 1365 个, 另外还有 8412 个阴性样本被专家规则命中, 这部分样本也称为假阳性样本, 分类准确率约为 14% (1365/9777) 。2. 逻辑回归建模, 建模环境为 SAS9.4具体建模流程图如下:图 2 逻辑回归建模流程 下载原图主要步骤包括变量分布探索、缺失值填补、剔除水平数过高的离散类型自变量、变量聚类、结合 KS 值和 IV 值的变量筛选、连续类型自变量分箱、自变量 WOE编码、逐步逻辑回归建模以及模型稳定性的检验。3. GBM 建模, 建模环境为 Python2.7由于 GBM 算法本身

20、有多个模型超参数可供调优, 为提高调参效率, 使用 Python sklearn 机器学习包提供的交叉验证和网格搜索功能, 调参步骤如下:表 1 GBM 算法调参步骤 下载原表 由表 1 可见, 经过 5 轮调参, ROC 从基准的 0.9 提高到接近 0.92, 提升效果显著。对应得到的最优模型参数如下:(二) 实验结果和分析1. 专家规则建模结果分析由图 1 可见, 专家规则只能将样本划分为阳性或阴性, 因此无法通过违约概率的打分排序指定模型评估深度。图 1 分类结果对应的深度约为 19% (9777/51000) , 相应的模型评估指标如下:表 2 专家规则模型表现 下载原表 从表 2

21、可见, 通过预警约 21.4%的客户, 可以捕获约 70%的违约样本, 此外, 模型只包含三个自变量, 业务解释性较好, 但该模型无法给出样本具体的违约概率, 因此无法根据业务方需求进一步降低预警深度。2. 逻辑回归建模结果分析在经过图 2 流程图建模后, 逻辑回归模型最终入模 20 个自变量, 各自变量及其重要性排序 (Std Est) 如下:图 3 逻辑回归模型入模变量及变量重要性 下载原图由图 3 可见, 所有入模自变量的 p 值均远小于 0.05, 显示对自变量的卡方检验均为统计显著。另外, 模型中排名前 5 的自变量分别为客户信贷政策、存贷比、月均累计交易金额、企业主月均 AUM 和

22、企业日均贷款余额差值, 通过对比图 1和图 3 可以发现, 专家规则模型使用的 3 个自变量只有存贷比在逻辑回归模型中出现, 而图 3 排首位的客户信贷政策并未在专家规则模型中入模, 显示出从业务经验角度和机器学习角度出发挑选的最优自变量子集所存在的巨大差异, 换而言之, 机器学习能够从数据中学习到和业务经验不相符或业务经验所不知的知识和潜在模式。从表 3 可见, 同样将评估深度控制在 20%, 逻辑回归模型的召回率相对专家规则模型提高约 10%。另外, 逻辑回归模型可以给出样本违约概率, 因此可以进一步将评估深度控制为 5%或 10%。表 3 逻辑回归模型表现 下载原表 3. GBM 建模结

23、果分析利用表 1 中的最优参数训练 GBM 模型, 最终挑选出重要性大于 0 的自变量共计486 个, 绘制排名前 20 的自变量如下:图 4 GBM 模型入模变量及变量重要性 (前 20) 下载原图和图 3 进行对比, 两者有 6 个自变量完全一致, 8 个前缀相同的衍生变量, 总体变量重叠度为 70%。另外, 客户信贷政策和存贷比这两个自变量在 GBM 模型中也位居前 2, 显示两个基于机器学习的模型在捕捉数据的主要信息方面保持了高度一致。表 4 GBM 模型表现 下载原表 从表 4 可见, GBM 模型在各个评估深度的召回率相对逻辑回归模型均有较大提升, ROC 也较逻辑回归模型提高约

24、0.02。为了检查 GBM 模型在迭代过程中是否发生了过拟合现象, 绘制模型评估指标相对于迭代数的变化曲线。图 5 至图 8 分别为迭代数取 1 至 200 区间 GBM 模型在训练集和验证集上的 ROC 和召回率变化曲线。总体而言, GBM 模型在训练集和验证集上各项模型评估指标基本保持一致, 并未出现大幅偏离, 显示模型具有良好的泛化性。图 5 GBM 模型 ROC 指标迭代图 下载原图图 6 预警深度取 5%时 GBM 模型召回率迭代图 下载原图图 7 预警深度取 10%时 GBM 模型召回率迭代图 下载原图图 8 预警深度取 20%时 GBM 模型召回率迭代图 下载原图(三) 模型对比

25、总结从为中国建设银行带来的经济效益角度出发, 在深度为 20%时, GBM 模型召回率超过逻辑回归模型和专家规则模型分别为 5%和 15%;在深度为 5%和 10%时, GBM模型召回率超过逻辑回归模型分别为 6%和 9%, 显示出 GBM 模型相对于另外两种模型在预测精度方面的显著提升。通过部署 GBM 模型, 只需将预警深度控制在8%, 即可达到专家规则模型在 20%深度时才能实现的违约样本召回率, 这意味着只需将 GBM 模型违约概率打分前 8%的客户名单推送给基层客户经理作违约提前处置, 即可为我行挽回 70%的潜在违约可能造成的损失, 同时为该行节约 60%的违约预警成本。从建模效率

26、角度出发, GBM 模型采用决策树作为基分类器, 因此基本不需要进行数据预处理, 包括模型调优在内的建模耗时一般不超过一天;而逻辑回归模型由于需要做大量的数据清洗和数据转换工作, 整个建模周期超过一周时间, 两者在建模效率方面差距显著。从算法差异角度出发, 由于逻辑回归属于线性可加模型, 当自变量和目标变量之间存在非线性关系或者当自变量之间存在交互作用时, 均可能导致模型泛化能力下降, 因此需要通过大量的特征工程诸如变量分箱和创建交互项以提升模型拟合精度;而 GBM 模型通过采用决策树作为基分类器, 天然可以处理变量之间的非线性和交互作用, 此外, 通过集成上百个基分类器的预测结果, 可以显著

27、降低模型偏差而不提高模型方差 (李航, 2012) , 有效地克服了单棵决策树容易过拟合和预测精度偏低的缺点。从模型解释性角度出发, 本文 GBM 模型使用了 160 轮迭代共计 486 个自变量和640 条规则, 而逻辑回归模型和专家规则模型分别使用了 20 个和 3 个自变量, 后两者的业务解释性和打分速度均优于 GBM 模型。因此, 如何对 GBM 模型进行模型压缩和规则抽取以提高其可解释性和打分速度成为一个亟待解决的问题, 目前已经有一些学者尝试融合 GBM 和 Lasso 来达到这个目的 (He 等人, 2014) 。四、结语本文提出了一种基于 GBM 算法的小企业信贷客户信用风险评

28、分模型, 论述了如何利用 GBM 算法对中国建设银行小企业信贷客户数据进行建模以及如何对 GBM模型进行参数调优, 同时也使用专家规则和逻辑回归进行建模, 并对三种模型的预测效果进行了对比和分析。实验表明, 以 ROC 和召回率为模型评估指标, 在不需做大量数据预处理的前提下, GBM 算法预测精度显著高于逻辑回归模型和专家规则模型, 可以大幅提高违约客户的召回率和预警准确率, 帮助该行显著降低潜在违约客户的提前处置费用, 降低客户违约可能为该行造成的潜在损失。显示了在对业务解释性不做要求的前提下, 以 GBM 为代表的集成模型在银行数据分析和挖掘领域的巨大潜力, 此前央行征信中心使用以 GB

29、M、Adaboost、Random Forest 为代表的集成模型和以 SVM、决策树为代表的单个模型对个人征信数据进行信用评分建模实验, 结果也显示集成模型在预测精度和模型稳定性方面具有一定优势。参考文献1王颖, 聂广礼, 石勇.基于信用评分模型的我国商业银行客户违约概率研究J.管理评论, 2012, 24 (2) :80-89. 2林成德, 彭国兰.随机森林在企业信用评估指标体系确定中的应用J.厦门大学学报 (自然版) , 2007, 46 (2) :199-203. 3李航.统计学习方法M.北京:清华大学出版社, 2012. 4He, X.&J.Pan.Practical lessons

30、 from predicting clicks on ads at facebookC.Proceedings of 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, ACM, 2014:1-9 5Freund, Y.&R.Schapire.Experiments with a new boosting algorithmC.In Machine Learning:Proceedings of the Thirteenth International Conference, 1996:148-156. 6Friedman, J.Greedy function approximation:a Gradient Boosting machineJ.Annals of Statistics, 2001, 29 (5) :1189-1232.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报