风控业务背景
不夸张地说,贷前风控可覆盖80%的风险,这是业内普遍共识,当然更是信贷风控的内在需要,毕竟放款后就只能靠催收尽可能减少损失,而放款前能做到避免资损。
申请评分卡(Application Scoring)
就像是在申请时给消费者照一张相,然后与借款后一段时间的另一张照片对比。它只是将申请者的静态特征与未来固定时期后的静态状态的好坏标签进行比较。
目前,鲜有资料讨论如何构建产品层、客户层A卡。本文以贷前授信风控模型为例,介绍客户层申请评分卡的一些构建思路。
目录
Part 1. 产品层和客户层评分概述
Part 2. 同一产品客户层授信模型
Part 3. 不同产品客户层授信模型
Part 4. 总结
Part 1. 产品层和客户层评分概述
在风控建模中,我们需要明确3个基本点:样本观察点是什么?X(特征)是什么?Y(好坏标签)是什么?
1. 模型分类
根据是否用到多个产品的订单建模,信用评分模型可以分为2个层次:
产品层:评估借款人在某个产品上的违约风险。
客户层:评估借款人在所有产品上的违约风险。
图 1 - 客户-产品-订单之间的对应关系
2. 样本观察点
模型本质是学习拟合X和Y之间的关系,而样本观察点决定了模型学习哪部分群体的模式。在授信模型中,样本观察点一般选择授信日。确定观察点后,我们也就能确定截止观察点前,可以采集到的数据,从而构建特征X。
3. 好坏定义
在风控建模中,我们都是根据支用放贷订单(或叫借据)的还款表现来定义好坏,并训练一个二分类概率模型预测违约概率(Probability of Default,PD)。
不同于对猫、狗这样明确的0-1标签,信贷风控追求的是风险与收益之间的平衡,因此好坏定义常常是模糊的。原因在于,坏的客群虽然能带来坏账损失,但同时也能带来利息、罚息等收入。那么,我们能接受多坏的客群呢?这就取决于风险容忍度。因此,我们才会做滚动率分析、Vintage分析等。
Part 2. 同一产品客户层授信模型
观察期、观察点及表现期这三者的概念是建模的基础知识。对于贷前授信模型而言,我们分别定义为:
观察点:授信日,指客户在此时提交申请资料,希望能获得金融机构授信资格。
观察期:授信日前的N个月。可根据在授信申请时采集的数据构建相应特征X。
表现期:客户在未来一段时间内表现出好坏的窗口,这是下文重点分析的内容。
图 2 - 用户授信后的多笔支用订单(借据)
如图2所示,借款人得到金融机构授信后,在同一产品上先后发起多笔支用订单。订单的基本属性包括申请金额、期限、利率等。在审批策略上,考虑到借新还旧的内部共债风险,如果借款人有在途逾期金额,新的支用申请订单一般不会审批通过。
在授信时并没有期限属性,用户只有在支用时才可自主选择期限(比如6期、12期)。实际上,如果用户选择更长期限,也代表其希望每期的还款压力更小一些,这一行为也就暗示用户此时还款能力不佳。因此,对于不同期限的订单,我们需要差异化对待,比如:根据不同期限的样本训练多个不同的支用层模型。
用户的信用状态在每笔订单的还款行为上慢慢体现出来,但是每笔订单所处的时间环境又不同,对于用户的信用产生不同程度的影响。因此,对于授信模型,样本适合定义在用户维度,而非订单维度。
现在让我们思考下,如何将样本定义在用户维度?
在图2中,我们作如下名词约定:
取单时间窗 :授信后N天,在此期间能覆盖到 0~M笔支用订单。
好坏表现期 :支用订单(借据)完整暴露好坏表现所需要的时间窗。
显然,以多笔订单定义客户好坏,必然会引入更多的坏,因此对客户的好定义更为严格,要求其所有订单都正常。这能帮助我们采取更为保守的风控策略,以及解决坏样本过少的问题。
那么,我们该如何确定取单时间窗长度?
取单时间窗 越长,虽然能覆盖的订单越多,对客户好坏定义也就越全面准确,但总时间窗也就越长,导致能利用的建模样本也就距离越远。反之,坏用户将会减少,但能利用的建模样本也就越近。
因此,我们需要数据分析得到一个平衡点。可考虑采取以下步骤:
- 统计所有已授信客户的首借订单距授信的间隔天数,可得到一个分布。这是因为不同客户的支取订单数不同,这样可尽可能覆盖足够多的客户(至少有一笔订单可定义好坏)。
- 计算上述分布的P50、P75、P90等分位数,得到相应的天数(候选集)。含义为不同天数下,可覆盖多少百分比的客户。
- 统计不同天数下,多笔订单所定义的客户bad rate,可观察随天数增大,bad rate的上升趋势,预期符合慢慢变缓的趋势。
- 结合客户覆盖率和bad rate捕捉率,决定一个合适的取单时间窗,比如30天。
在确定取单时间窗口后,如图3所示,我们采取2种口径来定义客户的好坏:
- 首笔放款支取订单,如果这笔订单是坏的,那么客户就是坏的。
- 多笔放款支取订单,任意一笔订单是坏的,那么客户就是坏的。
图 3 - 首笔和多笔订单定义的好坏客户对比
如图3所示,通过统计客户支用订单笔数,我们可以将客户分到不同的bucket中,得到客户分布。进而统计每个bucket里的逾期率、额度使用率等指标。那么可以得到哪些结论呢?
- 考虑到重授信(通过率低)、轻支用(通过率高)的风控流程,大部分客户支用订单在30天内集中在1~2笔,符合正常借款需求。
- 在利用多笔订单定义客户好坏时,支用订单数越多,客群逾期率越高,符合业务逻辑。这部分客群资金需求越饥渴,多笔放贷订单所形成的内部共债雪球越大,导致逾期率高。审批策略中可加入“最近30天内的动支订单数”来加以拦截。
- 多笔订单口径相对于首笔订单口径,对好坏的识别梯度更为明显,说明能捕捉客户在一段时间内的风险变化,因此更为合理。
Part 3. 不同产品客户层评分模型
同生表现(cohort performance) 是指同一个客户在产品A、B上被拒绝,无法获知贷后表现;但在产品C上通过,具有贷后好坏表现。此时,我们就可以考虑利用产品C的好坏标签来用到产品A的建模中,对拒绝样本打上标签。
图 4 - 内部多产品线的拒绝回流模式
如图4所示,很多金融机构内部具有多个产品线,比如标准版、极速版(客群相对更差)。当某个用户的风险不符合产品A的形态时,会将其继续扔到产品B、C上,如果仍然拒绝,那么就转到贷款超市导流到其他机构。一级一级漏斗式回流。因此,你也就能知道贷超流量客群是有多差,毕竟没人会把好的流量拱手相让。
对于构建客户层评分模型,我们仍然可以采取上文所述方案。但是,我们进一步推广思考,多家金融机构之间信贷产品的贷后表现是否能迁移使用?如果一个人在产品A上违约,那么在另一个产品B上是否也算违约呢?从技术角度,应该不算;但是从道德或者更为保守的风控角度考虑,这种也算,不放过任何疑似变坏的人。
实际上,同一个人在不同机构不同产品上的好坏表现差异度是客观存在的。我们常会见到,在内部产品上是好客户,但在其他机构却是坏客户。
例如,借款人在一段时间内先后借了信用卡、P2P等机构的钱,多头负债,那么在还款时,借款人会从哪些维度考虑,决定其还款排序呢?笔者认为大致有以下几方面因素:
- 平台资质:优先选择还大平台,考虑未来借款机会;
- 催收力度:一般催收越狠,还款可能性越高;
- 逾期后果:是否上征信?是否影响正常消费?
- 还款压力:每家借钱数目不同,优先还少的;
Part 4. 总结
本文大致介绍了一些在构建授信模型中的一些问题思考,值得大家一起探讨。风控建模过程不仅仅是一个技术活,更多需要对业务问题有深入思考。例如,在贷前阶段,我们还可以构建:
- 动支预测模型:预测未来一段时间内,客户发生动支行为的概率。
- 营销响应模型:预测在不同的触达方式下,客户的响应率。
- 其他
———————————————————————
作者:求是汪在路上
链接:https://zhuanlan.zhihu.com/p/137347716
来源:知乎