1、大数据在网贷征信应用中的困难及政策建议 马小林 中国人民银行丹东市中心支行 摘 要: 与传统征信模式相比, 大数据征信具有数据来源广谱多维、评估模型多样等诸多优势。但实践中, 由于基础数据规模小、数据应用模型不成熟、数据挖掘分析专业人才匮乏等因素制约, 大数据技术在网贷征信的应用不尽如人意。针对上述短板与挑战, 建议健全相关法律制度, 规范大数据征信行为;加强顶层设计, 加快建立我国社会诚信体系;建立网贷行业信息与模型共享机制, 打通信息孤岛, 扩大基础数据总量规模;采用新兴技术和建立数据分析团队, 提升大数据应用效率。关键词: 大数据技术; 大数据模型; 征信; 网贷平台; 作者简介:马小林
2、 (1981) , 女, 辽宁凤城人, 经济师, 大学本科, 主要研究方向为金融理论与征信管理。收稿日期:2017-04-22Received: 2017-04-22由于我国社会信用体系建设起步较晚, 央行征信系统尚未与 P2P 网贷平台等非金融机构开放对接, 很多网贷平台寄希望于应用大数据技术来解决网贷征信问题。然而, 由于基础数据规模较小、数据应用模型不成熟以及资源投入严重不足等因素制约, 大数据技术在网贷征信领域的应用仍面临诸多困难。因此, 必须加强制度顶层设计, 重新规划建设路径, 建立网贷行业信息与模型共享机制, 打通信息孤岛, 扩大基础数据总量规模, 并引入新兴技术, 建立专业化数
3、据分析团队, 着力提升大数据应用效率, 从而开辟一条贴近国情的大数据征信健康发展之路。一、大数据征信特点相较于传统征信而言, 大数据征信是基于新型征信技术的创新模式, 它具有数据来源多维度、评估模型多样化、应用场景丰富、覆盖人群范围广泛等特点。因此, 这种新型征信模式能够大幅提高征信效率、降低成本, 从而有效服务于P2P 网贷等新兴金融领域。(一) 信息数据来源广谱多维传统征信数据主要来自金融领域信贷信息、公用事业账单信息以及政府公开信息, 而在大数据时代, 数据源更广, 种类更丰富, 时效性更强。大数据征信采集非传统的信贷数据, 包括电商平台的交易数据、社交媒体的关系数据、P2P网络贷款信息
4、、移动 APP 上的地理位置信息等。这些数据大多属于有别于传统的半结构化数据、非结构化数据, 能够全面深入挖掘征信主体的消费倾向、社交关系以及行为方式等特征, 能够更加深入地洞察、评估和防范信用风险。与传统征信评估模型不同, 传统的信贷数据在大数据征信模型中的比重大幅下降, 仅占 40%左右1。(二) 信用评估精准可预测传统征信注重历史数据和静态数据, 难以对征信主体的现实信用状况动态追踪, 时效性较差。而大数据征信则着眼于征信主体信用状况的动态变化, 能根据现有的实时信息, 对信用主体的未来履约情况进行更为精确的研判和预测, 从而最大限度地降低信用风险。据相关统计资料显示, 大数据征信评估预
5、测的精准率远远高于传统征信, 普遍高达 85%以上2。因此, 互联网金融对大数据征信情有独钟, 同时传统金融机构也纷纷加紧与大数据征信的融合。(三) 征信成本低、效率高首先, 基于人工智能、云计算等优势, 大数据征信能够有效降低信息获取成本, 譬如美国“脸书”依托 Hive 这项大数据技术, 短短 30 分钟即可扫描、处理规模达 105TB 的网页数据3。其次, 大数据征信采用人工智能和云计算技术, 大幅提升了信息收集、挖掘和处理速度, 数据处理时间由过去几个月缩短至几小时。例如, 美国知名的大数据征信公司 Zestfinance, 利用大数据、可视化关联分析和机器学习等新兴技术, 开发设计的
6、信用评估模型可并行处理 7 万个指标, 其运算时间仅有 35 秒, 大大降低了信用违约率4。(四) 应用场景丰富多元传统征信的应用场景相对狭窄, 主要集中于银行信贷领域, 而大数据征信的应用场景则更加丰富、更加多元, 能够延伸至社会经济生活的各领域, 如租房租车、合同签订、求职应聘等。同时, 大数据征信还可为政府部门制定政策、履行监管职能提供参考依据, 提升政府公共服务水平和监管的有效性。二、P2P 网贷征信现状目前, 国内大多数 P2P 网贷平台尚不具备纯网络征信能力, 需要采取线上接单、线下审批方式评估客户信用情况, 并借助电话访谈、实地走访、面签等方式验证客户资料。以网贷平台龙头企业宜信
7、财富为例, 超过 85%的交易量采用线下方式审核, 纯线上授信占交易总量不足 15%。线下审批方式大幅推高平台运营成本, 影响贷款审批效率5。为了降低征信风险, 部分 P2P 平台甚至放弃了信用贷款业务, 进而转向以抵押借款为主。可见, 征信已成为拖累 P2P 网贷行业发展的瓶颈。在此背景下, 越来越多的 P2P 网贷平台转而依托大数据技术, 全方位搜集借款人各类信用信息, 通过智能模型自动得出客户违约概率, 从而大幅度降低了征信成本, 提高了交易效率。但由于普遍面临数据来源和模型构建的困扰, 大数据征信真正走向成熟和可信, 依然任重道远。三、当前大数据征信面临的主要困难(一) 大数据征信相关
8、法律法规不健全近几年, 我国相继颁布了征信业管理条例社会信用体系建设规划纲要 (20142020 年) 征信机构管理办法等一系列制度规范, 为社会征信业的发展提供了法律规范基础。但这些法律制度的调整和规制对象主要是传统金融机构, 而很少针对快速发展的互联网金融, 互联网征信法律建设与监管几近空白状态, 大数据征信信息的收集、挖掘、处理无章可循。(二) 基础数据规模小大数据应用依赖海量数据的支撑。P2P 网贷平台的数据来源通常有三类:一是P2P 平台上自有的交易数据及客户提供的信息, 包括交易历史记录、个人征信报告、现金流水单、资产证明、电商交易记录等。二是通过互联网和社交网站等公共渠道, 用程
9、序按照一定的规则自动抓取的客户相关信息和数据, 包括关联事件、朋友圈、网络言论、微博日志等。三是通过第三方征信渠道购买或交换的信息, 包括借款人黑名单信息和借款人不良信息、客户的个人基本信息、贷款申请信息、还款信息等。但对于 P2P 企业而言, 上述三类数据来源的总体规模仍然较小, 而且由于行业壁垒, 网贷平台难以获取借款人金融行为之外的信息, 如日常社会行为征信记录, 无法有效支持大数据技术对于数据混杂性和关联性的要求。(三) 征信模型不成熟目前, 绝大部分网贷平台自行开发的分析模型, 受限于分析维度的设立、数据间逻辑关系的梳理等关键技术难点, 仍处于试验阶段, 评级结果一般仅作为线下审核的
10、辅助验证。而少部分 P2P 网贷平台引入了美国的 FICO 信用评级模型, 并进行了少量的客户化定制。基于 FICO 的评级模型, 需要输入年龄、家庭情况、信用卡交易数据等要素, 经过计算完成对客户信用等级的评分。但由于它对数据质量的要求过高, 对数据混杂的容忍度较低, 少量输入要素的差错就可能导致评级结果的误判, 因此从严格意义上讲, 这并不属于大数据的应用。另外, 其基础模型 FICO 主要应用于美国的征信体系, 很多数据标准和权重的设计并不适用于我国征信体系, 评分结果的可靠性有待验证。(四) 技术资源投入严重不足P2P 网贷业务正处于快速发展与资金积累的初级阶段, 因此在 IT 技术和
11、人员方面的投入一般是以“勉强够用”为标准, 很少超前投入。但大数据技术对系统性能极为挑剔, 一方面需确保联机交易的时效性, 另一方面还要不断提升数据仓库联机分析运作的高效性, 以及关键业务应用的高可用性需求, 因而需要较大的投入, 包括系统硬件设施购置成本、系统的日常运行维护成本、系统架构更新升级的时间成本等。同时, 大数据应用还要组建专业化的数据采集、挖掘、分析队伍, 但从目前业内情况看, 复合型人才匮乏, 大数据挖掘处理队伍建设困难重重。四、推进大数据征信应用发展的政策建议(一) 健全相关法律制度, 规范大数据征信行为由于大数据信息采集范围更加宽泛, 信息可能会涉及个人隐私、商业秘密等,
12、因此, 要从强化大数据立法、加强自主自控、注重显/隐价值保护三个方面筑牢我国大数据管理的安全防线, 个人信息的利用必须以保障公民隐私为前提, 注重二者之间的平衡, 同时要着力加强征信活动监管, 多措并举严惩失信行为。一是建立健全政府大数据采集制度, 依法记录和采集相关信息, 征信机构不得违法提供或者出售信息。相关法规中要对征信机构信息的采集、挖掘、处理和使用提出明确的行为规范。二是加快信息安全保护体系建设, 明确征信各方主体权责, 清晰界定信息隐私的边界, 监督信用信息合规应用。三是要制定专项法规, 明晰第三方征信机构信息采集内容与方式。要加强日常监管, 严格评估第三方征信机构的征信产品质量,
13、 做好产品异议管理, 不断提升第三方征信机构服务水平。(二) 通过顶层设计, 加快建立我国社会诚信体系目前社会上的多个行业都在推动诚信数据库或黑名单建设, 但信息的采集往往限定于具体行业内, 缺乏有效的协同联动, 导致黑名单的全面性和威慑力大打折扣。建议应由国家层面尽快明确主管部门, 规划建设路径, 打破行业壁垒, 协同各行各业共同加快社会信用评价体系建设。在建设模式上, 可以借鉴人民银行现行的征信系统使用模式, 由政府搭台, 企业买单, 允许符合条件的互联网金融企业通过付费使用的方式进行查询共享, 这样既可减轻政府负担, 又能降低企业网络征信成本, 实现政府与企业的双赢。(三) 建立网贷行业
14、信息与模型共享机制, 打通信息孤岛, 扩大基础数据总量规模在社会信用体系建成之前, 网络借贷行业可以连同第三方互联网征信企业率先搭建起行业内的征信信息共享平台, 解决单一企业数据规模较小的问题。建议通过几家大公司合作搭台, 对数据进行定价和有偿交换, 打通信息孤岛, 扩大数据总量规模。同时采取业内联手合作方式, 深入开展大数据信用评价模型的研发, 不断推出更加精准、贴近国情的信用评价模型6。(四) 通过采用新兴技术和建立数据分析团队, 提升大数据应用效率鉴于大部分 P2P 企业资金有限, P2P 行业可以采用存储容量优化、资源虚拟化或几家企业共同搭建“云计算平台”等方式, 提高信息技术资源的整
15、体利用效率, 最大限度减少资金投入。同时大数据技术能否成功应用还取决于数据分析团队的建设, P2P 企业应该重视数据分析人才的培养和挖掘, 组建一支由熟悉大数据分析工具、熟悉征信业务、熟悉信用风险管控的人才组成的综合团队, 从而提升信用评价模型和数据分析结果的有效性, 使大数据技术在资信评估的应用方面从目前的辅助地位逐渐上升到主导地位, 以便真正实现服务征信决策、降低征信成本、推动网贷业务发展的目标。参考文献1叶文辉.大数据征信机构的运作模式及监管对策以阿里巴巴芝麻信用为例J.武汉金融, 2016 (2) :62-64. 2叶大清.大数据征信:向互联网金融进军J.软件和集成电路, 2015 (7) :42-45. 3谭艳斌.基于产业链视角的传统征信与大数据征信良性互动初探J.西部金融, 2016 (1) :39-43. 4张雨辰.大数据背景下的互联网金融征信问题研究J.电子商务, 2016 (1) :35-38. 5李佳儒.互联网金融征信模式选择J.征信, 2016 (9) :29-31. 6聂二宝, 陈绍真, 苗新科.基于“区块链+”的互联网金融大数据双通道征信技术研究J.征信, 2017 (6) :39-41.