1、我国商业银行小微企业申请评分卡构建及验证研究 邓大松 赵玉龙 武汉大学社会保障研究中心 摘 要: 本文采用相关数据挖掘技术, 对商业银行小微企业客户的风险计量模型进行设计和构建。首先根据客户相关信息及行为变量, 分析总结了不同客户群体的行为特征;然后通过分析小微企业客户的相关客户信息以及信用状况等信息, 构建相关建模备选变量;在此基础上, 采用国际先进银行通用的建模方法, 进行了风险评分模型实证分析。结果表明, 通过应用小微企业客户的基本信息、征信信息、合同信息等指标, 构建的回归模型具有较好的风险识别能力和区分度, 各项检验结果较为合理, 对于商业银行小微企业业务的风险管理能力提升具有一定现
2、实参考意义。关键词: 小微企业; 商业银行; 风险管理; 评分卡; 作者简介:邓大松:武汉大学社会保障研究中心教授, 博士生导师, 研究方向:社会保障理论研究、公共经济政策研究;作者简介:赵玉龙:武汉大学社会保障研究中心博士研究生, 高级经济师, 研究方向:公共经济政策研究、商业银行风险管理。Research on The Application Card on Small Enterprise in The Commercial bankDeng Dasong Zhao Yulong Abstract: The paper used risk measurement model on Sma
3、ll Enterprise at commercial bank. The Scorecard is designed and built by using ideas on big data and techniques on data mining. First, according to the small enterprise-related information and behavioral variables, small enterprises are classified into several groups based on the decision tree metho
4、d. The behavior characters of different small enterprise groups are also analyzed and summarized. Then, the empirical analysis on risk scoring model is conducted by taking small enterprises as an example. The results show that the risk model design of small enterprise based on big data analysis is c
5、apable of both identifying and distinguishing the risk with reasonable test results. This study which provides empirical evidence for the commercial banks to build risk management tools and improve risk management of small enterprise has realistic significance.Keyword: Small Enterprise; Commercial B
6、ank; risk measurement; Scorecard; 一、问题的提出2012 年来, 为更好地解决小微企业融资难问题, 我国各级机构出台一系列制度和措施, 大力鼓励金融机构发展小微企业金融服务。全国各大商业银行也积极响应国家号召, 纷纷将小微企业作为重要的客户服务对象, 从产品设计、资本定价、渠道建设等各方面加大了创新力度, 但由于我国商业银行惯有的发展大客户、大集团等思路, 导致其在发展小微企业业务时, 也往往采用了先评级、后授信、再放款的传统对公业务模式。从国外商业银行发展小微企业业务的经验看, 采用申请评分卡等零售业务工具, 构建有效的小微企业零售化信贷业务模式和风险管理体
7、系, 对于更好地开展小企业业务, 防范相关风险, 实现小企业业务的“零售化转型”, 具有十分重要的意义。因此, 如何在经济发展中把握趋势, 采用相关技术深入挖掘相关数据, 通过对小微企业客户风险特征的分析, 更加精确地掌握客户群体的信用风险违约模式, 据此进行零售小微企业客户评分模型设计, 并以此设计相关的政策和系统, 满足商业银行风险管理工作的精细化要求, 为打造核心竞争力提供决策依据。二、文献综述在对信用风险的定量研究方面, 最早是以破产预测的技术应用为主。Merton (1974) 开创性的基于期权定价理论和思路, 创立了企业违约的相关理论, 将企业资产的价值波动与企业的违约风险高低相关
8、联, 建立了企业违约风险评价模型。Hand (2001) 系统地对零售贷款的违约风险预测方法进行了分析, 将上世纪 80 年代以后商业银行进行零售贷款风险计量的方法和思路进行了梳理, 并对比了各类方法的应用环境。建模方法方面, Daniel Porath (2006) 对评级模型和评分卡模型进行了对比, 其认为在构建模型的变量选择上, 评分卡模型不同于评级模型, 更多的采用了分组的方式对变量进行归类建模, 认为变量分组是进行评分卡建模的关键步骤。Altman 等 (2007) 采用逻辑回归的方法, 对美国某银行 1994-2002 年间的小企业数据进行了分析和研究, 构建了小企业评分卡, 并将
9、其转化为打分卡的形式。William 等 (2000) 进行调查发现, 内部评级的方法已经成为银行业金融机构进行企业风险度量的重要工具, 评分卡模型作为内部评级的工具之一, 在个人零售贷款和小企业贷款中具有重要的应用。我国学者在研究评分卡方面, 大多沿用国外学者的研究方法。程建、连玉君 (2007) 系统地对信用评分的建模思路、步骤进行了研究, 将模型回归结果校准到评分卡工具中, 并对模型的有效性验证提出了思路和方法。向晖、杨胜刚 (2011) 对零售信用评分模型建模过程中的数据缺失、变量不平衡以及验证过程中的偏差问题进行了研究, 综合比较了国内学者对个人信用评分关键技术的最新研究情况。杨绍基
10、和范闽 (2007) 采用 Heckman 两阶段模型, 对商业银行的个人住房按揭贷款业务中的信用评分卡模型的拒绝偏差问题进行了实证研究, 认为 Heckman 二阶段模型可以提高个人住房贷款信用评分模型的预测力。邓超、胡威、唐莹 (2011) 以国内上市的 171 家小企业作为样本, 选择各类变量, 应用 Logistic 回归方法对 171 家小企业客户构建信用评分模型, 并对模型的有效性进行了验证分析。黄昶君、王林 (2014) 采用大数据分析方法和数据挖掘技术, 对商业银行电子商务平台零售客户的风险计量模型进行设计和构建, 通过分析电子商务平台客户的相关行为信息以及其在线下的金融产品交
11、易活动, 构建相关建模备选变量, 采用国际先进银行通用的建模方法, 以零售 B2C 类的消费客户为例, 进行了风险评分模型实证分析。目前, 针对小企业信用评分的研究中, 各种模型所根据的违约理论不尽相同, 所选择的影响违约因素也不一致, 其计量方法、样品选择的角度和范围也有差别, 研究的结论也就不完全相同。大多数有关模型研究中提供多种可供选择的变量, 其变量涉及企业性质、企业规模、企业年龄、所在区域等, 但其主要的变量依然是财务变量, 通过实证研究表明, 选择财务变量为主要变量的模型虽然在实证研究中预测准确性较高, 但在小微企业的实际业务中, 数据的真实性难以保证。已有的有关信贷违约影响因素的
12、研究中存在以下缺陷:一是对小企业信贷违约行为的影响因素进行系统的分析研究不够, 多延续大中型客户的研究思路;二是把企业性质、企业贷款属性、产业特征作为小企业信贷违约行为影响因素变量的研究较少。三、小微企业评分模型设计1. 评分卡模型设计的方法和原理目前, 在开发信用风险评分卡模型时, 根据特征, 由于其因变量是一个二分类变量 (“正常”或者“违约”, 记为“1”和“0”) , 不是一个连续的数值型变量, 所以对于信用风险违约为二分类特征的因变量, 数据分析和开发工作需要使用非线性函数。从国内外进行二分类因变量分析的研究前沿看, 大多采用了基于 Logistic 回归的分析方法。根据黄昶君和王林
13、 (2014) 的研究论文, 具体的模型方法表示如下。假设以连续反应变量 yi代表事件发生的可能性, 其值域为负无穷至正无穷。当该变量值超过一个临界点值 c (多数情况下可以设定 c=0) , 便导致事件发生, 于是有:若设定 yi=1 表示事件发生;y i=0 表示事件未发生。y i与一系列变量 xi间存在一种线性关系, 即:则有:为取得一个累积分布函数, 对上式做如下处理, 由于 Logistic 分布与正态分布都是对称的, 因此:其中, F 为 i的累积分布函数, 分布函数的形式依赖于 的假设分布。由于标准的 Logistic 分布的平均值为 0, 方差等于 。在此基础上, 其可以使得累
14、积分布函数变形为一个较为简单的公式:当 i趋近于负无穷时, 同理, 当 i趋近于正无穷时, 从上述分析可以看出, 无论 i取何值, Logistic 函数 P (yi=1|xi) 的取值范围均在 (0, 1) 之间。同时, Logistic 函数在 i从-开始向右移动时, 随着 i的增加, 函数值先是缓慢增加, 然后转向迅速增加, 之后增加的速度又开始逐步放缓, 当 i+时, 函数值趋近于 1。这一特性表明, i在不同阶段对某一样本发生某一事件的可能性是变化的, 在 i很小或很大时, 其作用很小, 而在中间阶段对应的可能性增加较快, 即当 i在 P (yi=1|xi) 接近于 0 或 1时,
15、作用小于当 P (yi=1|xi) 处于中间阶段时的作用。这种非线性函数的特征, 有助于解决传统的线性概率模型所不能解决的问题, 例如在小企业违约关系问题中, 企业实收资本对违约的影响, 太低或太高的实收资本对违约概率的变化影响不大, 而在某一段水平内变化时, 对违约概率的影响较大。定义: i为一系列影响违约概率因素的线性组合, 即:则:利用 Logit 变换, 可将上述非线性函数转变为:其中, log it (p) 作为因变量, 与多元线性回归模型的形式是一致的, 而不同的是:第一, 其所有的分析均建立在二项分布的前提假设上, Logistic 回归模型中的因变量不再是连续的, 是二分类的
16、(0 或 1) , 但因变量的 logit 值的改变与多个自变量的加权和呈线性关系;第二, Logistic 回归系数的估计不再应用最小二乘法, 而是极大似然估计法, 其检验采用的是 Wald 和似然比检验, 而非 t 检验和 F 检验。2. 评分卡模型设计的步骤根据小微企业信用风险的特征以及评分卡工具开发的特征, 小微企业申请评分卡的开发过程主要由五个步骤组成:第一, 进行小微企业业务数据的收集、分析、探索和评估。此阶段的重点工作, 是尽可能的收集对建模有利用价值的数据。工作的开展一般先从对业务部门的访谈开始, 通过对业务部门的交流, 能够大致了解业务部门对小微企业信用风险现状、发展特征以及
17、驱动因素等内容的理解和分析。在此基础上, 对内部小微企业的业务数据、业务系统以及业务报表进研究和汇总分析, 这一步的工作主要以变量列表和数据列表的形式展现。第二, 模型构建的设计阶段。主要根据建立模型的方法论, 结合银行的业务实际和数据情况进行模型构建的方案设计。此阶段的重点工作是对构建模型的核心定义、关键领域的判断进行分析, 为后续的模型开发奠定基础。核心定义主要涉及小型企业、微型企业标准的确定, 好客户、坏客户、中间客户的定义等内容。关键领域主要包括建模样本和验证样本的抽样比例、建模的观察样本时间段、表现期等内容。此阶段, 是在进行数据分析的基础上, 由建模人员与业务人员共同分析、判断、确
18、定。第三, 准备建模数据的列表搭建及指标的细分工作。此阶段以上述的数据分析和业务特征判断为基础, 对各备选变量指标的数据进行收集和归并, 形成能够满足开发模型工作所需的数据列表和数据域, 以用来进行识别最优的群体细分, 构建和确定合理的建模备选变量库。关键领域主要包括:根据各指标的趋势分析及与业务特征的关系, 搭建业务数据及备选变量的推导、合并, 生成建模样本和验证样本, 为后续的建模工作提供清晰、有效、可利用程度高的数据列表。第四, 模型的开发、确定和文档撰写。评分卡模型的开发和确定工作, 是上述数据分析的最终工作落脚点和成果, 上述所有的工作都是为了能够构建出合理、科学、有效的评分卡模型。
19、关键领域主要包括:在上述确定了评分卡建模的方法论、关键定义方案及各业务风险指标的参数后, 采用统计学分析及业务判断相结合的方法, 对将纳入建模的备选变量库中的每一个变量形成一份特征变量分析报告, 以客观分析和评价各备选变量与风险实质的表现、匹配情况。在此基础上, 将各业务变量的风险特征与评分结果、好坏客户构建函数预测关系, 构建合理的评分卡模型, 并通过与业务部门的交流, 在备选方案中确定最终的建模方案。第五, 进行模型的样本内和样本外验证。建模样本内验证, 是采用建模时用于进行验证的数据项, 对模型的表现进行同时间段的验证, 这部分工作一般与建模的工作同时间开展, 也主要由建模团队人员执行。
20、样本外验证, 又分为建模时点的样本外验证和最新时间段的样本外验证两种, 一般执行的是最新时间段的样本外验证, 以保证模型上线前的风险预测能力与建模时期的风险预测、排序能力差别不大, 保证模型的预测质量。四、实证研究结果1. 样本选择本文选取某商业银行 2011 年 1 月至 2015 年 12 月末三家主要分行的小企业业务数据, 构建小微企业评分卡模型。同时, 为满足相关监管要求, 严格按照银监会对小微企业的相关定义进行数据截取:一是企业符合国家四部委规定的微型和小型企业认定标准;二是对单家企业 (或企业集团) 的风险暴露不超过 500 万元;三是对单家企业 (或企业集团) 的风险暴露占本行信
21、用风险暴露总额的比例不高于 0.5%。2.“好坏客户”的判断及定义根据相关数据分析过程可以看出, 截至 2015 年末, 该三家分行小微企业业务中, 当前未违约客户中, 在下个月有 97.02%的业务保持原状态, 也就是处于正常贷款分类;而逾期 30 天以内的贷款业务中, 有 65.91%比例的业务能够恢复为正常状态, 有 31.38%的贷款变为逾期 31-60 天的贷款;而逾期 31-60 天的贷款业务中, 仅有 15.25%的贷款状态上迁, 出现好转, 但有 84.61%的贷款继续变坏, 成为逾期 61 天以上的状态;而逾期 61-90 天的贷款中, 接近 93.75%的贷款状态进一步恶化
22、, 成为逾期 90 天以上的“违约”客户。因此, 从实际业务的合理性以及风险管理的审慎性出发, 可以将“坏客户”的定义为逾期 61 天及以上的客户, 未逾期客户为“好客户”。表 1 逾期率滚动情况表 下载原表 3. 建模样本的观察期和表现期确定观察期为选取哪个时间点或时间段的业务为基准, 进行好样本、坏样本的确定。表现期为选取多长的时间窗口, 对观察期的样本进行观察。根据业务数据分析以及好坏客户占比等情况, 确定建模观察窗口为 2014 年全年发放的贷款, 累计为 12 个月;表现窗口长度为 12 个月, 即对于每个观察客户样本, 观察其在未来12 个月的表现情况, 如果其在 12 个月内未出
23、现逾期的情况, 则将其定义为“好客户”, 若其在 12 个月内出现逾期 61 天及以上的情况, 则将其定义为“坏客户”。4. 确定建模样本及验证样本根据上述相关定义, 进行相关数据的清洗及截取, 共获取建模样本 12651 个, 其中“好”样本 10653 个, “坏”样本 881 个, “中间”样本 1117 个。然后根据模型验证的要求, 按照“七三”原则, 随机进行建模样本和验证样本的划分, 即建模样本占总样本的 70%, 验证样本占 30%。表 2 好/坏/不确定定义及分布 下载原表 5. 创建申请及企业信息数据集市 (备选变量库) 根据相关业务经验及小企业业务的风险管理实践, 可以将构
24、建申请评分卡模型的备选变量归类为:企业属性变量、实际控制人及高管层属性变量、财务指标变量、合同类变量、征信类变量等五类 (见表 3) 。为后续进行相关备选变量的构建和组合框选备选的变量。表 3 模型构建备选变量及特征分析 下载原表 6. 进行备选变量特征分析根据各变量的属性, 进行变量分组, 并将各分组与坏账率的关系判断, 分为趋势一致类和趋势不一致的两类, 对于趋势不一致的变量, 将无法进入建模的备选变量库。例如, 对于企业成立年限, 成立年限越短, 企业的坏账率越高, 说明趋势具有一致性 (图 1) ;而资产负债率与企业坏帐率的关系方面, 没有呈现出负债率越高, 坏帐率越高的关系 (图 2
25、) 。图 1 不同成立年限企业坏帐率 下载原图图不同资产负债率的企业坏帐率 下载原图通过上述步骤, 对表 3 中每一个变量均进行特征趋势性分析。从各变量的趋势性分析来看, 财务类指标均无趋势性, 说明小微企业的财务信息和财务报表质量不高, 基本无法纳入评分指标体系 (见表 4) , 后续建模的变量, 主要以其他四类变量为主。表 4 备选变量的特征分析 下载原表 表 4 备选变量的特征分析 下载原表 7. 进行变量的序别化转换首先, 对变量转换为 WOE 变量, 即对每个变量, 按照其各个分组的 WOE 值, 将变量转换为连续变量, 其变量值根据不同的分组取各个分组的 WOE 值, 此转换为 W
26、OE 转换。WOE 转换的计算公式如下所示:其中:WOE 的值为正数表示细分组坏账率好于平均, 为负数表示细分组坏账率高于平均。第二, 进行变量的分组。通过上述的特征分析, 对与风险趋势性一致的变量进行粗分组, 计算每一粗分组的 WOE 值。8. 进行模型构建在最终模型变量选择中, 运用逻辑回归来确定一个账户是坏的可能性的评分权重。目前, 在评分卡构建过程中, 使用较为普遍的有三种逐步判别方式: (1) 正向逐步选择法 (forward step wise) :即在截距模型的基础上, 将符合所设置水平的自变量一次一个地加入模型; (2) 反向逐步选择法 (backward step wise)
27、 :在模型包括所有候选变量的基础上, 将不符合保留要求显著水平的自变量一次一个地删除掉; (3) 混合逐步选择法 (combined step wise) :将正向选择和反向选择结合起来, 根据所设的显著性标准分别将变量加入到模型中或剔除掉, 这种方法既可以由正向选择法开始, 也可以由反向选择法开始。以上三种方法主要在设计程序上的算法不同, 处理结果一般是一致的。本研究采用的是正向逐步选择法 (forward step wise) , 即变量选择过程中逐一引入变量, 每增加一个变量后都要检查去除无助于模型预测能力的变量。回归结果中的每个变量的估计值, 即逻辑回归的系数, 是变量转换后所对应的评
28、分权重, 变量的评分权重乘以 WOE, 即为该变量分箱对应的评分权重, 所有分箱的评分权重与常数项之和为账户的评分权重。最终的 P 值, 回归系数和方差膨胀系数结果如下所示:表 5 小微企业评分卡模型回归系数和方差膨胀系数结果 下载原表 9. 评分卡模型回归结果的验证目前对于评分卡模型的结果验证, 多采用较多的是 K-S 值和基尼 (Gini) 系数。Kolmogorov-Smirnov (K-S) 值和基尼系数 (Gini) 均可以用来衡量模型区分好坏的预测能力。一般而言, KS 值在 0.2 以上表示可以接受, 0.4 以上表示模型区分能力良好, 0.5 以上表明模型区分能力很强。Gini
29、 系数在 0.7 左右表示模型区分能力可以接受。以下显示了模型应用于开发样本、预留验证样本和总体样本的 KS, Gini 统计值。表 6 申请评分卡验证统计值 下载原表 从上表可以看出, 不论是利用开发样本, 还是验证样本, 申请评分模型的 K-S值达到 0.3 以上, Gini 系数在 0.6 左右, 表明该模型具有良好的区分能力。1 0. 评分卡模型的应用评分卡模型在通过样本内外的验证后, 采用程建 (2008) 等的方法, 将模型转换成评分卡, 并通过设定高分区域、中分区域以及低分区域, 确定自动通过、自动拒绝的 cutoff 点, 采用不同的审批策略。这样, 不仅能够提高业务办理的效率
30、, 更可以全面衡量小微企业客户的相关风险。经单笔债项测试, 采用申请评分卡可以在几秒钟内进行风险识别和评判, 大大领先于人行征信查询的时间。五、结论及建议目前, 我国主要商业银行已开始按照银监会资本管理办法和巴塞尔协议的相关要求, 逐步利用计量经济学、数据挖掘等相关技术, 进行小型和微型企业的客户价值挖掘、风险评估、风险识别和预警等方面的尝试应用。尤其是在银监会资本管理办法规定可以采用零售风险资本计量方法的零售小微企业业务方面, 可以利用相关技术进行大数据下的定量深度分析, 提升风险识别的效率和信贷审批的质量、效率, 并提高风险计量的有效性, 有利于商业银行以更少的资本带动更多的小微企业业务发
31、展。1. 开发全生命周期的风险评分卡模型, 以供客户贷款申请、风险预警、到期续贷等评估工作的开展此次构建的评分卡, 只是用于客户贷款审批的申请评分卡。根据小微企业业务的全生命周期管理要求, 将客户的生命周期分为潜在客户识别、贷前审批、贷中风险监控、贷后自动续贷、逾期违约智能催收等工作。潜在客户识别主要运用客户营销响应卡, 贷中风险监控、贷后自动续贷采用行为评分卡, 逾期违约智能催收采用催收评分卡。通过国外先进银行的验证可用发现, 基于客户最新的风险特征、业务特征及行为表现构建的全生命周期评分卡模型体系, 能够较好地进行定向的系统性的客户识别、营销、风险识别和预测等工作, 提高了业务发展的效率和质量, 能够最大化地提升小微企业业务的精细化管理。2. 小微企业的财务信息不健全、不真实, 应用客户基本信息、征信信息、合同信息等构建的评分卡模式, 效果更加有效