1、大数据风控那点事儿! ! 中国金融市场供给不平衡,很多人的金融需求不能够被满 足,金融产品的风险定价也不科学,很多合格贷款申请人无法 得到贷款 。 这些客观情况造成了大数据风控拥有巨大的市场, 只要涉及到风控或征信的公司 , 必然会吸引资本市场的注意, 获得较高的估值。! !普惠金融的发展对金融产品的风险控制提出了较大的挑战, 银行已有的风控方式已经不适合很多年轻的客户。过于保守的 风控方法,在很大程度上,错误地拒绝了很多合格贷款人,同 时又放过了一些不合格的申请人。! 大数据风控同传统风控在本质上没有区别,主要 区 别在于 风控模型数据输入的纬度和数据关联性分析。据统计,目前银 行传统的风控
2、模型对市场上“#$的客户是有效的,但是对另外 %#$的用户,其风控模型有效性将大打折扣 。! 大数据风控作为传统风控方式补充,主要利用行为数据来 实施风险控制 , 用户行为数据可以作为另外的%#$客户风控的 有效补充。大数据风险控制的作用就 是 从 原来被拒绝的贷款用 户中找到合格用户,识别出已经通过审核的高风险客户和欺诈 客户。! ! ! ! 一 银行信用风险控制的原理! ! ! 金融行业常见的风险可以分为市场风险、信用风险、政策 风险、流动性风险、操作风险等。其流动性风险和信用风险对 金融行业自身生存影响最大,操作风险的影响也在增加。! !金融行业中, 银行是对信用风险依赖最强的一个主体,
3、 银行 本质就是经营风险,不同的风险偏好决定了银行的经营水平。 在经济结构调整周期过程中,信用风险管理也是各个银行面临 的巨大挑战。! ! ),借 款 人 展 望( ! 126712=?2)。! ! 贷款人情况! !是指贷款人信用情况、 个人财力、 银行往来记录, 其中其个人信用评分比重最高, 个人财力次之, 贷款 人的还款记录和还款意愿也很重要。! ! 资金用途!是指贷款人的借款用途是否合理、 合法。 是否用 于投机领域或高风险领域, 例如高利贷或赌博等。 资 金用途是否合法,同贷款被按时归还相关度较高。! ! 还款来源! ! 是授信审批中最重要的, 用来了解贷款客户是否 具备还款来源, 其
4、偿债能力如何。 其中客人的月度薪 资收入、 资产收入、 支出费用、 财产价值都高度相关。 其中常用衡量标准是无担保贷款不得超过月收入的 ( 倍(*) 小于等于(), 月 还 款 金 额 不 得 超 过 客 人扣掉所有支出费用后, 所剩费用的一半。 另外信用 卡的授信额度也会被考虑在内。! ! 债权确保! !主要是指对申贷客户所提供的各项担保品进行 评估, 当贷款违约时, 银行可以处理担保品, 减少带 贷款损失。 消费金融一般无担保品, 因此债权担保不 太适用, 但是某些消费金融公司会让贷款人购买一个 担保产品,一般为贷款总额的($,可 以 作 为 债 权 确 保。! ! 借款人展望! 就是贷款
5、人未来违约的 可 能性, 依据贷款人的行 业、 薪资、 职业、 职务、 学历等因素进行预测, 评估 未来发生风险的概率。 一般入门门槛低、 专业程度低,可替代性高度高的工作或行业风险较高。! 0 贷前风险控制的重要性。! ! 信用贷款的风险控制分为贷前,贷中,贷后三个阶段。贷 前控制主要是找到合格贷款人;贷中控制主要预防抵押品资产 减值,无法覆盖贷款标的,或者预防借款人还款能力下降,无 法按时归还贷款;贷后控制,主要当贷款发生逾期时,通过催 收降低银行损失。其中,贷前风险控制是最为重要的。! 摩根大通银行有一个统计,“0$的信用风险可以在贷款前 进行风险控制,贷后风险控制的有效性大概只用(0$
6、。因此对 于金融企业,贷款前的风险控制更为重要。在信用卡领域,贷 款前的恶意欺诈占整体信用贷款损失的A#$,真正贷款到期, 不进行还款的的客户只占信用贷款损失的/#$ 。 互联网金融 企 业也是如此。信用贷款风险控制过程中,贷前风险控制是最为 重要的。! ! 二金融行业信用风险控制的挑战! ! !金融行业在过去主要依靠经验和宏观经济形式来实施风险 控制,以定性为主,更多依赖风险管理精英的个人能力,特别 在经济发展很好的时期,风险管理偏好不太科学,不能够反应 出真正的风险水平。定性的风险管理占主体,定量的风险管理 起到很小的作用。!现在, 越来越多的银行正在重视定量风险管理, 积极利用 风控模型
7、来实施风险评估。巴塞尔BBB 协议的推行,推动了定量 风险评估。大多数中国银行的风控模型大多从国外引入,经过 自己定制和改良之后用于信用风险评估。市场风险和流动性风 险管理模型比较简单,国外的模型可以直接使用。但是信用风 险和操作风险比较复杂,由于信息不全以及其他问题,很多国 外的信用风险模型效果不太明显。于是大多数中国银行参考国 外 信用风险评估模型, 做了一个中国版本。 包括著名的CB.D 风 控模型,现在银行很少直接采用。! 定量风险管理对风险管理非常重要, 从风险管理本质出发, 如果风险不能够被量化,其就无法被监测和管理。国外领先的 风险管理方法论, 都 转向定量分析 ,EFG 和 )
8、G)D. 在信用风险 管理领域已经成为主流。! 银行在信用风险管理过程中遇到了一些挑战, 企业信用贷 款过于依赖政府授信和国有企业,这种粗放型信用风险管理在 经济结构调整过程中, 引发了很高的不良贷款率。 对私业务中, 过高的信用审核标准,无法为更多的贷款申请人提供贷款,造 成了无法为更多人提供服务,特别是在信用消费领域,无法实 现普惠金融服务。! ! ! !银行在个人信用风险管理过程中遇到的主要挑战。! ! 7 法,神经网络法。现在应用较多的是HFI 支持向量级机方法, 其在小样本、 非线性及高纬模式识别中有特有的优势。 同时HFI 也是努力最小化结构风险的算法。! ! ( 数据纬度不全!
9、! 量化风险评估需要将涉及到此风险的所有相关数据都包 含进来,通过模型进行信用风险评估,计算出还款意愿和还款 能力。评估采用的基本数据因素有 年 龄、收入、学历、客户资 历、 行业、 区域等, 其占主要部分。 信用因素包含如负债状况、 缴款记录、理财方式;以及行为因素例如交易时间和频率等。! 除了这些变量和因素, 其实还有一些因素并没有被考虑到 现有的风险评估模型中。例如贷款者的身体健康情况、生活规 律、是否参与赌博、是否参与民间借贷等 , 同信贷违约高度相 关的信息没有被考虑到信用风险评估当中 。! 特别是用户行为特征, 几乎很少的信贷评估模型会考虑用 户的行为。如果客户在借款前,频繁去澳门
10、赌博、或参与民间 高利贷、或有吸毒历史、或者飙车、或 者 经常半夜出入夜店等 危险区域、或经常半夜使 用 G11 等。这些危险行为因素都会对 其信用风险产生影响,但这些因素原来并没有被考虑到信用风 险评估之中。! !风险评估过程中,如果数据纬度不全,高相关数据没有被 考虑进来,对风控模型是一个大的风险。信用风险评估模型缺 少了重要风险因素 的 输入,其评估结果的偏离度就会较大,评 估结果失效的可能性就很大 。! % 风险定价不够精细! ! 量化风险管理的一个核心是风险定价, 根据银行自身的风 险偏好来对资产进行定价,高风险资产定价较高,低风险产品 定价较低, 根据风险高低来制定资产收益, )*
11、+ (基于风险定价) 已经成为主流。! 大多数银行过于保守, 不愿意容忍较高的逾期 率 和不良率, 对于所有信贷产品都一视同仁,严格控制逾期率和不良率水 , 一旦过高,立即缩紧信贷政策,严格控制贷款规模。复杂的经 济环境和风险场景,以及缺少全面数据,让风险管理专家更加 谨慎对待风险管理,误杀率远远大于漏放率。! 实际上, 不同风险的产品应该有不同的信贷风险控制指标, 高收益的产品 , 其不良率应该比低风险的产品要高。例如利率 为 N88,正 在 为互联网金融公司提供移动大数据来防范用户的恶意欺诈, 数 据的查得率超过了0#$左右,具有成熟的数据商业应用场景。! ! ! ! ! ! ! 六! O
12、27;8;=2! 如何利用大数据实施风险 控制! 市场上最热的大数据风控公司就是美国的O27;8;=2。其 技术来源于P33N42,正在为8;=2 申请信用评分,另外在银行等金融机构通过 O27;8;=2 模型获得信用背书的人数则远远大于该数。! O27;8;=2 公司的.ED 介绍了他们公司在大数据风控领域 的经验,很值得传统企业借鉴。欧美传统银行通常采用对所有 人都适用的线性回归模型, 其中包含性别、 出生地等(# 个左右 变量, 对每个人都简单化处理, 以打分卡的形式评分O27;8;=2 采用的变量则多达“# 个, 采用的算法也不是线性回归模型, 而是来自P33N42 的大数据模型。!
13、CB.D 信用评分参考的数据变量只有不到0# 个, 很多人摸清 了 CB.D 关注的变量后,就可以“模型套利”增加自己的信用评 分,例如一个人可以每天反复在图书馆借书还书Q刷信用R! 银行往往采用(# 个一下变量和几个模型,从模型数量而 言,传统征信评分通常采用一个模型,O27;8;=2 采用十个模 型,从不同角度进行计算。十个模型从不同角度衡量申请人的 分数,其中两个是进行身份验证防欺诈的,一个是预测提前还 款概率的,其余都是评判还款意愿和能力的。最后会用一个决策模型将十个模型的结果整合在一起,得到最终的结果。! O27;8;=2 发现模型越多, 准确率越高。 有两个模型, 对 利润的提升分
14、别是8;=2 模型中大部分信号都是通过机器学习找到的。 例如,一个人在网上填表喜欢用大写还是小写就是一个信号。 O27;8;=2 模型发现,填表喜欢全部用大写字母的人违约率更 高。在月收入经过验证的情况下(O27;8;=2 有一些渠道可以 大概获知一个人的收入状况) ,收入越高,违约率越低。然而, 在月收入没有经过验证的情况下, 自己填写月收入“0# 美元的 人违约率是最低的, 填写“0# 美元以上则数字越大违约率就更 高。! 很多人将社交数据视为神器, 但是O27;8;=2! 不这么认为, 主要还是采用结构化和类结构化的数据,例如交易信息、法律 记录、租赁信息等,来源主要是从数据代理商处购买。! O27;8;=2 的先进之处并非数据来源, “我们有的数据银行 都有” ,区别在于,银行的人有数据却不会用,就好比坐拥大量 矿藏却不会冶炼。相反,O27;8;=2 最大的优势就是“数据冶 炼” , 同样的数据到了O278;=2 手中, 就可以碰撞产生无数有价值的信号! ! ! ! !