【大数据挖掘】一起走进大数据风控的世界

2019/01/23 14:20
来源|毕马威KPMG

最近参与了一个反欺诈相关的项目,因为是第一次做相关工作,笔者花了一些时间,整理和学习了一些大数据风控领域的相关知识经验,翻看过去的公众号文章,好像还没有普及过大数据风控的概念,正好笔者可以陪大家一起走进大数据风控的世界。

我们先来拆文解字:

大数据,当前最火的概念或者技术或者框架了,说了这么多“或者”,其实就是笔者至今还没有看到一个特别准确的定义,总之就叫大数据就对了,它的特点就是数据量大、指标量大、价值分布范围大、数据增长速度大……

风控,一般银行都会有风控部门,而且权责一般还不小,风控部门主要工作就是:事前防损,监控止损和合规。对于大部分人来说,可能征信这个词接触到的更多些,无论是人行征信,还是芝麻评分什么的,其实都是风控的一部分。实际上,风控主要工作是评估用户可能违约的情况,并采取合适的措施保障资金的安全。它主要有两项任务:一个就是信用评价,比如芝麻评分或者大家很熟悉的ABC评分卡;还有就是反欺诈,识别最初就想违约的客户。

再看大数据风控,风控在后是主词,大数据则是风控的手段和工具。那么为什么大数据风控概念会兴起呢?其背景还是近几年互联网金融公司的兴起。大家都了解,传统信贷的对象主要是对公贷款或者是有抵质押的房贷,政策类的学生贷款等,这就导致了有相当一部分长尾客户群体,贷款不易。互金公司呢则关注的是这一群体,但是风险必然就会更高,并且互金公司由于原始积累少,信贷相关的风控指标也比较匮乏,于是呢,大数据就该出场了。大数据的其中一“大”就是多样性,也就是维度多,而大数据风控呢,很多时候设计上万个维度指标,相对于传统信用评分的几十个指标是不是大了很多;传统信贷笔数不大金额大,而互金行业则是金额不大笔数大,传统行业信贷需要面签,互金则经常不需要接触借方,正是因为如此,互金行业需要特别注重风险分摊,大数据风控要做的是计算出可能会亏1笔,那么必须让余下99笔至少抵消该笔的损失。

大数据风控的流程

总结一下目前大数据风控的工作步骤,大概得到如下的大数据风控的流程,可能与构建大数据平台类似,只是最后应用的落脚点在于风控。

新知图谱, 【大数据挖掘】一起走进大数据风控的世界

信贷流程中看大数据风控

1申请

主要是四要素:手机号、证件号、银行卡号和姓名,通过接入公安系统信息辨别证件的真伪,然后基于面部识别和指纹识别判断证件是你本人的。这些工作主要是对客户真实性的判断,传统的信贷也会进行这些验证工作。

传统信贷员模式需要亲见本人,亲见签字,而大数据风控能做到更多的是,会基于填写信息的位置、设备、网络等判断申请人的真实性。

2审批

首先,基于基本信贷政策,审核申请信息和证件资料信息。

然后,剔除黑名单,关注灰名单。

互金公司还会有一个评分过程,并且可能引入多家第三方评分,帮助对客户的评价。

通过以上三步的客户,分发进入不同的流程,比如根据评分授信高低不同的额度,新老客户的识别,以及对客户的进一步细分等。

而对于不通过的客户则需要反馈信息,比如审核不通过,进行信息备案;又或者资料缺失,反馈补缺;有条件通过的则反馈需要哪些条件。

传统信贷主要靠人工审核,互金公司则宣称主要依靠系统审核,人工审核更多是辅助。

3授信

互金公司授信其实基于两个准则:首先是公司政策,比如公司规定的贷款额度不超过5000,期限不超过三个月等等;另外就是信用评分:而信用评分则需要获取大量的数据维度和指标,涉及人口统计学、电商、搜索引擎、社交、信用卡、学信网、物流,支付等多达上万的维度信息。

传统信贷更多基于还款能力,比如房贷需要月收入大于两倍还款额,当然也会有抵押物价值、征信等方面的因素综合。

4贷后管理

主要是违约预警和授信额度调整;

联系方式失效、大额借款、逾期发生都引起违约预警,一些关联信息排查,譬如,黑名单数据匹配、异常资金流入流出、社交网络负面信息也会引起违约预警;至于授信额度调整,参考乐视网部分员工额度调整就了解了。大数据时代,这些都会基于BI实时监控。

传统信贷更多是有专岗人员去跟踪,尤其是企业贷款,可能会定期抽查相关流水、财报等。

5贷后逾期

从经验来说互金公司客户逾期的主要原因是还款意愿差或者还款能力不足,逾期客户和失联客户管理是贷后逾期管理的主要工作:

  1. 一般逾期客户,主要是优化催收模型,利用大数据构建不同客户群的催收规则,采取合适的催收渠道和手段;

  2. 失联客户,则需要识别和修复,比如申请信息失效了,大数据可以根据网购和物流信息等验证和修补。

6资金流动性管理

一般互金公司都会有贷款和投资两端业务和数据。这里实际上应用到了传统的BI,只不过要求数据实时更新了,也就是通过实时监控每笔借款和投资,监控两端的撮合状态,及时找到合适的接盘侠还要监测每天的赎回和投资,保证每天的头寸,实际上余额宝和各类P2P就是这么来保证资金的流动性的。

传统金融公司也会面对资金流动性问题,比如某段时间理财经理天天电话给你买理财,或者年底存款送大礼等等都可能是银行在解决资金端的问题,保证资产端放贷的需求。

7放款

放款更多的还是资金流向的约束,监控资金流向,甚至是指定资金流向,比如定向支付甚至指定账号划转资金。大数据能做的更多的是,拥有更多的渠道实时监控资金流转情况,比如你在某个商家买了奢侈品,然后就被关注了。

大数据风控模型

指标体系

大数据圈流行一句话:数据决定了数据分析的上限,而模型做的是逼近这个上限。

因此,构建一个完善的指标体系是非常重要的,大数据风控模型则主要涵盖下面几类指标:

  • 申请信息:年龄、性别、籍贯、常驻地、工作、联系人;

  • 用户使用过程信息:资料修改频率、IP定位、设备重复、填写顺序、其它行为记录;

  • 交易数据:借款相关交易频次、金额,还款等;

  • 第三方数据:一类是电商、社交、搜索、新闻、物流等信息的爬虫或接口导入;一类是设备信息的读取,还有一类是向第三方征信和风控公司进行购买。

风控模型

大数据风控更多应用与小微互金贷款,因此更多是还款意愿的控制,欺诈风险会比较高,因此构建好的反欺诈模型就非常重要,目前一般分三种:

  1. 规则:根据经验总结规则,形成规则库;而基于规则的主要手段是交叉验证,对规则库,证件、通信、定位、指纹,面部识别进行交叉验证,保证客户真实性。

  2. 黑名单和灰名单:基于以往发生的行为,进行名单匹配,对黑名单客户一刀切,对灰名单客户深入关注。

  3. 机器学习模型:利用聚类等模型发现一些违反常识的规则,反推,在应用于后续的客户验证。

另外,传统信贷中非常关注的信用风险,大数据风控同样非常重视。信用风险对模型的应用应该说很成熟了,包括ABC评分卡在信用卡领域的使用,芝麻信用在支付领域的使用等。评分模型最常使用的就是LR模型,现在大数据风控在此基础上补充了XGboost,FFM等模型来尝试新的方向,不过据了解,目前还是LR模型最稳定常用,新的机器学习模型或许还需要一段时间的实践和迭代。

面临的挑战

  1. 泛化能力:上线效果好,但是后续命中率下降迅速;

  2. 可解释性:需要提供相应的业务解释,否则面对客户的咨询和投诉比较麻烦;

  3. 更新速度:大数据的一大特征就是不断变化,客户在变化,数据在变化,那么模型迭代一定需要跟上数据变化的节奏;

  4. 指标是越来越多了,该如何选择;客户是越来越多了,该如何细分。

对大数据风控的要求

大数据风控更多在专注小微贷款的互金行业使用,没有面对面的交流,更多靠信用体系来控制,必然会面临各种挑战,因此需要一身本领:

  1. 对抗性能好:面对大量的黑产,刷单,薅羊毛甚至是暴力灌水等各种手段,需要有强对抗性;

  2. 灵活性高:攻击者在变,技术在更新,那么反欺诈的规则和模型也需要及时更新;

  3. 准确性高:规则和模型难免误伤用户,但是必须尽量防止这种事情发生,降低用户体验是属于自杀行为。

  4. 信息安全:大量的客户信息使用,必然会有更大的风险,如何防范信息泄露过着过度使用,是从业者需要考虑的问题。

行业发展

大数据风控是一个数据为王的行业,谁有更全的维度,更多的客户数据谁就能搭建更完善的风控模型。

在风控行业有两类公司最具竞争力,一类就是客户多数据维度多的公司,比如BAT等,它们拥有网购、支付、搜索、社交、物流等与人关系密切的数据,并且用户量巨大,指标也贴近信用评价体系,芝麻评分的诞生就是佐证;另一类是能专注的干这一件事情,这些公司的优势在于专注,更好的将数据应用于风控,对不同的需求细分做到关注。传统银行基于业务增长的需求和各类互金公司给与的危机感,也纷纷试水了各种消费金融和主动授信,并且一些银行也在尝试搭建大数据征信体系,虽然银行拥有的信息维度不一定全面,但是银行的天然优势就是拥有大量客户的直接金融信息,与风控的相关性更高,可以用较少的指标获取较准确的信用信息。

行业风险

大数据风控的发展暗含了一个风险:数据需求越多,客户信息暴露的越多。

在客户隐私信息使用的法律和道德风险上,目前还没有明确的规定,所以一旦政策发生变化,数据收集和使用受到限制,大数据风控的发展或许也会受到影响。

笔者最近使用的多个APP都需要同意一个信息使用协议,或许就是这些公司对某些信息安全使用政策的应对吧。

来源 | 毕马威KPMG

更多新知

知识库

已收录新知