1、2017年9月,评分卡相关流程介绍,人工审批难题,人工审批作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,存在以下问题: 信审人员对申请人所提交申请资料真实性的认定基本依赖于受理申请资料的信贷业务员的职业操守和业务素质,审批人员对申请人资料的核实手段基本依赖于电话核查,对申请核准与否基本依赖于自己的信审业务经验,授信审查成本高、效率低而又面临很大的欺诈风险,这种状况很难应对业务需要。 审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力相对薄弱。 不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点。
2、审批效率还有较大提升空间。,风险管理部,2 / 59,评分卡简介,原理:利用历史贷款客户数据预测未来申请贷款客户违约概率信用评分是指根据客户的各种历史资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和利率。虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。,01,风险管理部,3 / 59,评分卡优势,信用评分卡具有客观性 它是根据从大量数据中提炼出来的预测信息和行为模式制定的,反映了借款人信用表现的普遍性规律,在实施过程中不会
3、因审批人员的主观感受、个人偏见、个人好恶和情绪等改变,减少了审批员过去单凭人工经验进行审批的随意性和不合理性。信用评分卡具有一致性 在实施过程中前后一致,无论是哪个审批员,只要用同一个评分卡,其评估和决策的标准都是一样的。信用评分卡具有准确性 它是依据大数原理、运用统计技术科学地发展出来的,预测了客户各方面表现的概率,使银行能比较准确地衡量风险、收益等各方面的交换关系,找出适合自己的风险和收益的最佳平衡点。信用评分卡可以极大地提高审批效率 由于信用评分卡是在申请处理系统中自动实施,只要输入相关信息,就可以在几秒中内自动评估新客户的信用风险程度,给出推荐意见,帮助审批部门更好地管理申请表的批核工
4、作。,风险管理部,4 / 59,项目范围,风险管理部,5 / 59,数据处理和分析,业务调研和数据采集 数据质量分析 数据清洗 衍生变量设计 数据进一步分析,风险管理部,6 / 59,数据处理和分析业务调研和数据采集,通过设计问卷调查、访谈、统计分析等专业数据分析方式,对公司进行业务调研,了解公司的前端业务流、后台数据采集点、数据库设计及存储情况,深刻理解公司当前的数据现状、业务实际及系统运行环境和产品结构,分析公司自有数据存在的缺失敞口,包括申请表数据、央行征信数据、业务表现数据和其他三方数据等。该部分工作包括:对公司产品和数据现状的理解提取数据,风险管理部,7 / 59,数据处理和分析业务
5、调研和数据采集,对公司产品和数据现状的理解理解公司产品特点 理解产品风险暴露的特点,包括产品的定义,审批过程,审批政策和策略,管理策略,历史上的重大变迁,及未来发展趋势等。理解公司和本项目相关产品数据存储结构及数据内容 理解数据的存储系统及彼此关系,知晓其历史变更情况及其对数据获取及质量的可能产生的影响。,风险管理部,8 / 59,数据处理和分析业务调研和数据采集,提取数据:根据项目需求结合不同的产品特点和业务应用需求,提供具体的数据提取模板。开发样本:开发样本包括开发开发风险模型,制定业务策略和跟踪报表所需要的数据。 开发风险评分模型可用的理想数据应最佳地反映未来要评分和使用估算的群体。因而
6、,样本要足够新,从而能够代表目前和将来申请人的状况,这一点是至关重要的。然而,为了开发一个稳定而强大的解决方案,账户必须有足够的历史来体现他们的行为表现,同时也须有一定的信息量来描述其表现。开发不同的风险评分模型需要不同的数据,主要会包括申请信息、人口信息、内部关系数据、交易信息、还款信息、利息收入信息、催收信息、成本信息等。信息的使用会在模型建立过程中详述。验证样本 模型开发结果必须经过验证,不论何种风险模型。在模型的开发过程中需要进行预留样本的验证和跨时间样本的验证。 预留样本验证是通过随机抽样的方式,选取一定比例的样本进行评分模型的开发,并用余下的样本进行评分模型的检验。其目的在于使用未
7、在任何建模过程使用的独立样本来判断评分模型的辨别力及其稳定性。 跨时间验证是一个在模型开发之后进行的验证工作。该验证的目是检验基于开发样本建立的模型在不同时点的样本上,是否有相似的预测和排序能力及其跨时间稳定性。,风险管理部,9 / 59,数据处理和分析数据质量分析,根据数据提取需求模块进行数据提取后,为了保证后续的分析工作建立在高质量数据的基础上,需从以下6个维度建立一系列测量指标,对数据进行评估,确保数据可用状态,识别数据中可能存在的各种问题,探究数据缺陷的成因,制定数据清洗规则和实施框架,完成对原始数据的整理,并对未能达到建模要求的数据提出补救方案,找到适合建模的数据维度。数据的完备性
8、数据的有效性 数据的一致性 数据的完整性 数据的及时性 业务要求,风险管理部,10 / 59,数据处理和分析数据质量分析,为了满足建模要求,需要对经过质量控制的数据进行数据质量分析,得出多种统计指标。通过对每个字段的统计指标的观察,初步判断该字段是否可以建模的过程中使用。数据质量分析主要有以下两项:单变量分析生成双向或多维交叉表报告账户状态的账龄分析(Vintage Analysis),风险管理部,11 / 59,数据处理和分析数据质量分析,单变量分析对字符型变量和某些连续性变量进行频数分析,进而了解数据中该字段的分布情况,判断是否符合逻辑和业务实际,同时了解各个产品的特点。 对于连续性变量,
9、不能直接由频数分析得到其分布,而需要通过均值类统计方法检测均值、中位数、极大值、极小值和一些区间值,从而进一步地检查数据的准确性以及判断该字段的分布是否符合逻辑和业务实际。一般来说,单变量分析主要检验主键唯一性(数据集)、缺失率(数据集)、逻辑性检查和其他检查(业务范围场景)。 另剔除业务场景解释不会影响建模的变量后,可把变量类型分为:日期型、数值型和字符型变量,该部分单独进行检查。,风险管理部,12 / 59,数据处理和分析数据质量分析,风险管理部,13 / 59,数据处理和分析数据质量分析,风险管理部,14 / 59,数据处理和分析数据质量分析,生成双向或多维交叉表报告双变量分析报告可帮助
10、检测变量之间关系的正确性。多维交叉表报告方便工作人员全面地理解公司数据,并更有助于发现潜在的异常情况。,风险管理部,15 / 59,数据处理和分析数据质量分析,账户状态的账龄分析(Vintage Analysis)通过账户状态的账龄分析(Vintage Analysis),可以了解不同产品在不同时间点或不同时间段的账户的逾期比例的变化,从而了解资产质量变化。,风险管理部,16 / 59,数据处理和分析数据清洗,数据清洗:高质量的决策必然依赖于高质量的数据,数据清洗可以改进数据的质量,从而有助于提高其后的数据挖掘过程的精度和效率。本项目数据清洗所采用的方法主要有以下三种:缺失值处理异常值处理不一
11、致数据处理,风险管理部,17 / 59,数据处理和分析数据清洗,缺失值处理:缺失值一般分为真缺失与假缺失,所谓真缺失是指该数据的的确确是没有,并且不知道具体含义的情况;而假缺失往往是指虽然数据本身缺失,但缺失是一种特殊情况,具有确实的含义,比如客户是否处于休眠状态这一字段,如果没有值意味着客户依然活跃。针对上面真缺失与假缺失的不同情况,在处理缺失值的时候就要根据具体需求而定。假缺失可以通过讨论并与业务情况给出具体的补足方案;而对于真缺失,可以采用如下几种方法进行处理:忽略样本。若该条样本有多个变量存在缺失值,一般采取直接删除的方法。 使用一个全局量填充。将遗漏的变量用同一个常数(如“unkno
12、wn”)替换。这样数据挖掘程序可能会认为此数据项形成了一个新的概念,即都有一个相同的值“unknown”。 均值/中位数补救法:对于数值型字段,可以使用样本均值或中位数补救;对于分类型字段,可以使用中位数补救。 频度最高值补救法:对于分类型字段,使用出现频度最高的类别补救;对于数值型字段,可以通过先分箱,然后使用出现频度最高的分箱的均值或者中位数进行补救。 使用推导的值填充值。使用聚类的均值补救或者基于分类的插值补救、回归、贝叶斯形式化方法或者判定树归纳等基于推导的工具预测缺失值。,风险管理部,18 / 59,数据处理和分析数据清洗,异常值处理:异常值是测量变量的随机错误或偏差。识别异常值数据
13、一般有四种方法。第一种方法是可以为每个变量设定一个正常取值范围,连续变量的范围可以设定为其均值3 倍的标准差,分类变量的频数高于总体的1%;第二种方法建立在生成数据的过程是具有特定函数形式的模型,如线性模型的假设基础之上,可以用已知数据拟合该模型,严重偏离被拟合模型的观测值被视为极端值;第三种方法聚类算法将数据分为较小的子集,只包含较小数量观测值的子集,被认定为噪音数据;第四种方法依靠决策树发现包含少量观测值的持续结点。将异常值识别出之后,可采取以下四种方法来处理:分箱。分箱的方法通过考察临近变量来平滑存储数据的值,存储的值被分布到一些箱中,拥箱中的中值或者均值等替代箱中的变量,进行局部平滑。
14、 聚类。将近似的值组织成“类”,然后用同一个值代表这一类。 计算机和人工检验结合。通过计算机和人工检查的办法来识别异常值。例如,制定一个规则找出可能有异常的数据,然后人工筛选出真正的异常数据。 回归。通过让数据适合一个函数(如回归函数)来平滑数据。,风险管理部,19 / 59,数据处理和分析数据清洗,不一致数据处理:对于有些事务,所记录的数据可能存在不一致。有些数据不一致可以使用其 它材料人工的加以改正。若知道变量间的逻辑依赖关系,也可以查找违反函数依 赖的值。,风险管理部,20 / 59,数据处理和分析衍生变量设计,衍生变量:衍生变量的原始信息来源于模型开发的样本和将来模型实施时均可以观察到
15、的信息。衍生变量的预测能力来源于它们与目标变量的相关性和逻辑因果关系。在大量的原始变量的基础上,派生出几百到上千个具有一定预测能力的衍生变量,然后经过层层筛选,最终选定十几个到几十个预测能力最强的变量来建立信用评分模型。基于对业务风险特征的分析及经验,生成衍生变量。变量聚类 对于未能达到建模要求的数据,使用变量聚类的方式进行补救。由于该类数据虽然不是模型建设的强变量,但是依然会对模型效果起到影响,不能单纯的把该类数据舍去,因此可采用变量聚类的方式,利用相关性筛选变量,通过对变量进行聚类分析,对相同类型的变量进行分组,选择其中效果最好的变量作为备选,风险管理部,21 / 59,数据处理和分析衍生
16、变量设计,风险管理部,22 / 59,数据处理和分析数据进一步分析,数据进一步分析产品特征分析客户特征分析等,风险管理部,23 / 59,评分卡模型开发与验证,对于评分模型的开发有如下三种方法:专家模型适用于即将开展、或刚开展、或已开展但数据量较少的业务,不需要确保足够数量的“坏客户” 和表现期;混和型模型若在一个合理的时间段内能有一定数量的坏客户 ,可结合专家经验与可用数据的统计分析,实施一种”混和”型的模型发展方案;数据驱动的统计模型若有足够坏账户数,且各类信息,如申请人信息、债务或债项信息、还款信息、经营实体信息等收集较为完备,则可开发数据驱动的统计模型。,风险管理部,24 / 59,评
17、分卡模型开发与验证模型开发,是,是,否,否,否,是,风险管理部,25 / 59,评分卡模型开发与验证模型开发,专家模型:专家评分模型主要开发过程包括以下五个步骤与业务专家进行多次内部访谈,设计变量调查问卷。组织业务专家对问卷进行填写,让业务专家充分参与到模型开发过程中,增加模型开发的透明度,便于后期模型应用的推广工作。回收调查问卷,对填写的变量重要性进行汇总排序,并组织会议进行讨论。利用层次分析法确定备选变量权重,并进一步确定这些变量的使用方式。基于层次分析法确定的权重,以及可获取数据的变量特征分析结果,形成评分卡初版,与专家团队进行讨论,最终确定入模变量。,风险管理部,26 / 59,评分卡
18、模型开发与验证模型开发,混合模型:混合模型主要开发过程包括以下三个方面专家问卷调研。主要为评审专家访谈、调查问卷设计、问卷的填写、调查结果分析数据分析。主要为数据提取、样本数据分析、模型变量生成、模型变量筛选评分卡确认。主要为模型指标确认、指标权重确认、模型验证、最终模型确认,风险管理部,27 / 59,评分卡模型开发与验证模型开发,数据驱动的统计模型:该模型(一般采用Logistic)主要包括以下步骤,风险管理部,28 / 59,评分卡模型开发与验证模型设计,模型设计:以会议的形式讨论和确定评分模型项目所要达到的目标,并定义开发所需参数,其中最主要的内容为排除规则、目标变量和样本窗口的定义。
19、产品范围 业务重点、影响成本和盈利的因素、产品特征、目标客户群特性等 决定最适用的关键开发参数(例如:排除法则、观测窗口、表现窗口、取样方案等) 原始数据的来源及可获取性 数据、系统及运作程序方面的限制 在开发数据使用的时间段上,业务组合的改变是否显著影响到评分卡的开发,风险管理部,29 / 59,评分卡模型开发与验证模型设计,排除规则:主要内容是确定未来不可评分以及不适用于建模的人群。,风险管理部,30 / 59,评分卡模型开发与验证模型设计,目标变量:主要内容是确定样本好、坏以及不确定的定义。好坏样本的定义需要依赖于滚动率分析,即分析各逾期状态下进一步变坏的可能性,从而确定坏定义的建议。,
20、风险管理部,31 / 59,评分卡模型开发与验证模型设计,样本窗口:主要内容是确定用于建模数据所覆盖的时间窗口,主要是通过坏账率分析中坏客户的捕获率来定义。,风险管理部,32 / 59,评分卡模型开发与验证数据准备,数据准备:主要包含以下内容特征分析报告变量分箱变量筛选变量转换,风险管理部,33 / 59,评分卡模型开发与验证数据准备,特征分析报告:自变量与应变量间的双变量分析报告,又称之为特征分析报告,还可用以检查每个变量趋势是否符合业务逻辑,评估其预测能力。同时,如果需开发补充变量和哑变量(Dummy Variables),双变量分析报告也是主要依据和基础。,风险管理部,34 / 59,评
21、分卡模型开发与验证数据准备,变量分箱:主要为分类变量的分栏和连续变量的分箱,主要参考WOE(Weight of Evidence,证据权重)值。分类变量:例如婚姻关系,包含多个变量属性,如“已婚”、“未婚”、“其他”等,可直接将每个属性作为一个分箱连续变量:首先按照频数尽量平均分成多组,保证每个分箱的账户数占总体的比例不低于2%,形成变量的初步分组,随后在初步分组的基础上合并相似的组别形成最终分箱其中 为该组内坏样本的个数, 为总坏样本个数, 为该组内好样本的个数, 为总好样本的个数。,风险管理部,35 / 59,评分卡模型开发与验证数据准备,变量分箱:变量分组合并时,需考虑以下因素不同的分箱
22、间好坏比率。每个分箱中的好/坏账户数量。每个分箱中的账户百分比。每个分箱的好坏比率的排序需要和业务常识保持一致。分箱的取值要符合业务常识。,风险管理部,36 / 59,评分卡模型开发与验证数据准备,变量筛选:主要通过信息值IV,衡量类别变量与结果变量之间关联性IV的取值范围对应预测力 0.3 强,风险管理部,37 / 59,评分卡模型开发与验证数据准备,变量筛选:筛选过程中会有以下考量显著性和稳定性 稳定性的考量将会保证模型在相对较长时间内具有稳健的区分能力。变量稳定性以群体稳定指数(Population Stability Index,PSI)衡量,通常通过计算变量在开发样本和跨时间样本上的
23、群体稳定性指标(如:PSI0.1)对变量的稳定性进行评估。结合信息值和群体稳定指数,筛选出有效的变量用于模型参数拟合。在进行变量筛选时通常考虑变量的稳定性和信息值(IV),根据PSI和IV筛选出有效的变量进行模型开发。 单调性和合理性 由于大多数的建模方法要求单个变量在模型中的作用是单调的,因此变量好坏分布的单调性越强,最终模型的可解释性和性能会越好。但很少出现完全单调的变量,更多的情况是在总体趋势之中存在一定波动。对波动调整不会对模型的性能造成重大影响,反而会减少变量自身的噪音,保证模型的稳定性。为了帮助业务人员理解变量的预测趋势,通常会对此类波动通过取值合并作平滑处理。 评分模型需要注重预
24、测变量的业务合理性和可解释性。然而,统计上显著的变量,在模型中的作用不一定与常识和业务经验一致。为了避免由此可能导致的错误判断,在变量筛选时需要通过单变量分析,检查连续型和离散型自变量在不同取值下,好坏分布的总体趋势与业务经验是否一致。 变量间的多重共线性 多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确,通过计算该变量的方差膨胀因子(VIF)来判别,该步骤可通过逐步回归方法来剔除存在严重共线性的变量。,风险管理部,38 / 59,评分卡模型开发与验证数据准备,变量转换:对自变量中所有顺序变量和类别变量进行WOE(证据权重)转换。WOE
25、(证据权重)转换便于将回归模型转化为标准评分卡的格式,WOE转化的优势:提升模型的预测效果,提高模型的可理解性。WOE与违约概率具有某种线性关系 通过WOE编码可以发现自变量与目标变量之间的非线性关系(例如U型或者倒U型关系)。提升预测效果。 标准化的功能 WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。 WOE能反映自变量的贡献情况 自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性。一般地,系数越大,woe的方差
26、越大,则自变量的贡献率越大(类似于某种方差贡献率),这也能够很直观地理解。 异常值处理 很多极值变量通过WOE可以变为非异常值。,风险管理部,39 / 59,评分卡模型开发与验证模型细分,模型细分:不同的业务中,人群的行为模式往往存在差别,不区分业务的模型的预测能力较差。因此需要针对样本,辨别最佳群体细分,使整个模型的预测能力最大化。建立初始的细分方案后,需要不断进行调整。主要通过以下标准来评估模型细分的效果。样本的数量是否足够用以构建以细分为基础的稳健的评分模型 每个评分卡是否会对某一资产中足够数量的账户产生影响 细分方案是否合乎逻辑 细分后的模型有无提高预测能力 每个细分模型是否满足稳定性
27、的要求 细分方案是否符合业务要求,风险管理部,40 / 59,评分卡模型开发与验证拒绝推断,拒绝推断:拒绝推断是指将先前拒绝的账户推断为好账户的概率的过程。拒绝推断可以创建“总体正常申请群体(Through The Door)”,从而减少在模型开发时由于样本差异出现的统计偏差。接受部分坏客户 随机抽取未被授信的客户,对其进行授信、观察未来表现。对于这部分客户加以一定的权重与授信客户合起来作为模型开发的样本。但该方法在现实中较难接受,因被拒绝的客户风险往往较高,易带来损失 核函数推断法 用最相似、加权平均和Q1加权平均这三种核函数推断法对拒绝样本进行拒绝推断,并把推断出因变量取值的拒绝样本和接受
28、样本汇总后,再创建信用评分模型,然后利用验证样本做模型效果的验证。 打包方法 打包方法首先利用接受样本创建初步的信用评分模型,并把预测概率排序分组,然后给拒绝样本中的申请人打分,并对打分得到的预测概率按照接受样本中的预测概率分组规则进行分组。该方法假设在同一概率组中,拒绝样本中的坏客户比例是相对应的接受样本中坏客户比例的若干倍,这个倍数就叫做事件增长率。事件增长率需要业务人员根据经验给出估计,是一种先验信息。 硬截至法 硬截止方法首先利用接受样本创建信用评分模型(KGB),并据此给拒绝样本中的申请人打分。该方法假设得分高于某个临界值的为好客户,低于临界值的为坏客户,这里的临界值也需要业务人员给
29、出坏客户率的先验估计。,风险管理部,41 / 59,评分卡模型开发与验证拒绝推断,Odds of Rejects=4000/3000=1.33; Odds of Uncash=460/40=11.5; Odds of Book=2200/300=7.33;Odds of Total =6660/3340=1.99,风险管理部,42 / 59,评分卡模型开发与验证模型确立,模型确立:逻辑回归是申请信用评分模型常用的统计方法,技术成熟且广为评分技术人员熟悉,容易使用及实施。逻辑回归分析主要适用于二元(或多元)性目标变量,比如说,账户未来表现的“好”和“坏”。逻辑回归模型预测的结果是介于0 和1 之
30、间的概率,同时逻辑回归模型的预测结果与自变量之间是非线性的关系。逻辑回归模型自变量Xn 可以是连续性变量,也可以是类别性变量。逻辑回归模型的预测结果是目标变量Y=0 的概率。以数学公式来表示如下:,P = 1 = exp( 0 + 1 1 + + ) 1+exp( 0 + 1 1 + + ),P = 1是客户违约的概率,常数 0 , 1 , , 为函数参数, 1 , , 是函数自变量经过分值刻度的设定得到标准评分卡,风险管理部,43 / 59,评分卡模型开发与验证模型验证,模型验证:采用统计手段就模型的区分能力、排序能力和稳定性等在内的多方位验证,并在验证基础上完成模型优化调整和校准,生成最终
31、的评分卡。模型评分分布和群体稳定性(PSI检验)模型排序能力(Gains Chart)模型分辨能力(Gini 系数和 KS值)等,风险管理部,44 / 59,评分卡模型开发与验证模型验证,KS 值,Divergency,Gini(ROC)系数,KS值:好坏群体累计分布的最大差异;KS越高,排序能力越强。 Gini(ROC)系数:坏账户数的累积分布与随机分布的差值;高值意味着好/坏之间的差异较大。 Divergence分离度:衡量“好”和“坏”群体的信息值差异;分离度越高,排序能力越强。,风险管理部,45 / 59,评分卡模型开发与验证模型验证,风险管理部,46 / 59,评分卡模型开发与验证评
32、分卡计算,风险管理部,47 / 59,评分卡应用策略开发,评分截取点(Cut-off)的设定,风险管理部,48 / 59,评分卡应用策略开发评分截取点(Cut-off)的设定,评分截取点(Cut-off)的设定:评分cut-off划分包括“截取点分数线”和“风险等级区间”。前者是依赖评分进行业务决策的理想情况,低于某一分数以下的直接拒绝,高于该分数以上则批准。但实际业务上的情景不会如此简单,需要通过设置评分区间将人群分成不同风险类别,不同类别采取差异化对策。费埃哲一般建议风险等级区间分为五类:极高风险E类,较高风险D类,中等风险C类,较低风险B类,很低风险A类。Cut -off 截取点分数线风
33、险等级区间,风险管理部,49 / 59,评分卡应用策略开发评分截取点(Cut-off)的设定,Cut -off 截取点分数线:截取点分数线的划分根据业务方向的不同而有不同的原则,一般主要包括以下三种考虑。保持目前的审批通过率 较谨慎的设定Cut-Off截取点分数线的方法是保持和目前一样的通过率。在保持当前通过率的同时,坏账率和坏账户数量也相应减少,这是由于新开发的评分卡与之前相比能够更好的区分好坏账户 保持目前的坏账率 另一种设定 另一种设定 Cut -Off 截取点分数线的方法是,希望增加通过率同时维持当前坏账不变。这种方法是具有一定风险的,因为需要通过段时间才能确参与评分申请人实际坏账率(
34、因拒绝推断的影响,实际的坏账率往会比通过评分卡估计要高)。 同时提高审批通过率和降低坏账 确定Cut-Off截取点分数线的做法是前两种方法的折衷:提高审批通过率、降低坏账率。实际上Cut-Off分数可以是策略曲线上的任意一点,但需随时监控批准分数选择的影响,以决定是否需要调整。,风险管理部,50 / 59,评分卡应用策略开发评分截取点(Cut-off)的设定,风险等级区间:实际业务上可能需要更多、更精细的划分,以对客户进行风险差异化,不同风险等级区间的申请采取差异化审批措施:将评分卡分数设置成高中低风险区间,分配审批作业。Cut-off评分等级划分遵从“业务出发,数据参考”的原则。人群占比 坏
35、账率差异明显 产品、抵押物等业务上风险高低差异 分数圆整上述cut-off划分方法需要有完整的数据,包括通过与拒绝的历史数据、足够的样本量等要求。如果条件不具备,可考虑使用其他指标,如评分的lift提升率,整体坏账率等指标,结合经验和业务需求综合确定,风险管理部,51 / 59,评分卡应用策略开发评分截取点(Cut-off)的设定,风险管理部,52 / 59,评分卡应用策略开发评分截取点(Cut-off)的设定,风险管理部,53 / 59,监控报表,监控报表,风险管理部,54 / 59,监控报表监控报表,监控报表:任何统计模型的基本假设都是未来会重复过去,历史样本数据代表了未来群体的特征,从历
36、史数据中提取的样本特征对未来群体依然适用,因此建立的统计模型在实施后,必须持续的跟踪模型应用群体的稳定性和准确性,并检验模型的表现和发展变化的趋势,及时发现潜在的问题。客户群体稳定性跟踪监控 变量稳定性跟踪监控 模型区分能力的跟踪监控 规则有效性的跟踪监控 规则案例趋势统计,风险管理部,55 / 59,监控报表监控报表,客户群体稳定性跟踪监控:客户群体稳定性的跟踪目的和用途是对不同的时间段客户群稳定性的跟踪。模型的开发和使用是以人群稳定为假设的,所以客户群的稳定性是检测和跟踪是模型稳定的基础。,风险管理部,56 / 59,监控报表监控报表,变量稳定性跟踪监控:变量的稳定与否一方面反映了客户群的变化,同时也与模型的稳定紧密相关。变量稳定性的跟踪监控不仅需跟踪监控模型所使用的每个变量,同时需对一些相关的业务变量和目标变量进行跟踪监控。,风险管理部,57 / 59,监控报表监控报表,模型区分能力的跟踪监控:除了对模型验证环节提到的KS 曲线、ROC 曲线以及Odds 曲线监控之外,还应增加群体稳定性贡献指数(PSI)监控。群体稳定性贡献指数反映了验证样本在各分数段的分布与建模样本分布的稳定性。,风险管理部,58 / 59,