http://www.infoq.com/cn/articles/big-data-in-pingan-technology-credit-risk-management
本文根据李想在中国技术开放日.上海站上的主题为“数据金融”的演讲整理而来。该演讲给大家分享了平安科技利用企业大数据在信用风险管理领域的一些经验,以及介绍了平安科技数据平台解决方案:量化、整合、数据生态圈。
很高兴有这样一个机会在这里分享大数据金融领域应用的心得,我以前在美国的对冲基金工作过,在银行里有一些经验,后来机缘巧合成为了一个真正的码农,所以在各方面都积累了很多经验。平安作为一个全牌照的金融集团控股公司,以前涉及到的业务在这里都有涉及。今天我的介绍偏向于企业大数据,因为在平安主要负责企业大数据的所有应用,包括企业大数据在对中业务当中的应用。
这两个人对我的影响非常大,让我的职业发展做出了改变。第一个是我在哈佛读书时候的教授,他是经济学系的教授,他的著作《博弈论》相信学经济的人都读过。他当时说了一句话“风险在大数据的情况下可以测量的”,这句话对我造成很大的触动,因为金融领域最大的问题就是没有办法测量未知的风险,如果可以测量风险很多问题迎刃而解,整个金融领域的工作方法都得以改变。第二个是Eric,他说“商业的每一个领域和角落都被大数据所改变了”,七八年前我在读书的时候,正是经历了这样一个过程。
大数据在商业领域的应用
大数据对于整个商业领域的改革,我个人经历过的,到现在为止大数据领域盈利的模式,一般还是在客户推荐,精准营销,客户画像,市场是大数据对于商业领域切入最深的领域,财富500强中95%已经运用了大数据营销,大数据已经切入到市场营销的方方面面。世界500强有很多深度地与大数据的结合,我很多年前接触到了经典的一些案例,比如说沃尔玛率先采用大数据的物流系统,国内阿里、京东都采用这种基于大数据系统,他们的供应链管理都迈向了新的台阶。沃尔玛卖出去的每一个产品在10分钟内都可以反馈到存储中心,第二天货车就已经上路,该补什么货就补什么货,效率较原来大幅度提升70%。
企业架构方面,大数据深度地改变了很多企业,Amazon和Linkedin两家企业采用了*决策体系,相当于建立一个大数据中心,这个中心做出的决策把数据集中放上来,建立一个各自角色的体系。有一个决策中心,大数据在每个BU层次得到比较大的结合,做出一些企业层面的决策。
对于平安集团来说,建立了一个更类似于左图这样的大数据平台体系,因为在整个集团里,下属所有子公司数据统一到大数据平台,无论证券、保险、信托等等都汇集到一个*数据平台,对于每一个子公司业务所创造的价值,以及集团方面决策的组合,都提高了数倍之高的效率。
最上面画了2个问号,如图所示,在整个商业领域划分了5大块,但在会计财务方面大数据该如何切入?这还是业界尚未解决的问题,我们最初的思想是从原来的收集和分析数据,到如何驾驭大数据,驱动战略决策。
我们今天谈财务分为两大块,第一块包括自动化程序化交易等等都会用到大数据。第二块为金融本质,包括银行业务本身作为一个信用中介的体系存在,把资金从一个信用高的地方,作为信用交换出去,赚取的是基于信息所掌握的信用差价。现在一些投行的业务,大型银行之间结合,有些银行既会做信用中介业务,也会做套利的业务,后面的内容聚焦在大数据如何作为一个平台支持,无论银行业务,还是信托业务,很多时候作为信用中介存在,赚取息差的差价。
大数据在征信和评级行业的应用
首先来说大数据,说到信用中介,信用风险管理上的应用离不开征信评级。传统的征信评级,比如在银行领域,我们经常接触到的企业征信,是把企业的所有信息收集起来,把信息展现给你看,但是信息代表有多大的信息?对决策有多大的影响?还有评级的范畴,这么多信息收集以后,这个企业是3A评级,或者是1B评级,评级本身是衡量风险的一个标尺,包括金融领域的所有应用都是基于标尺衡量的,给企业贷多少款?贷款做不做?通道收多少?在资管领域,风险偏好取决于债权项目能不能投?衡量的尺子就是信用评级,如果我们对信用风险有一个精确的衡量,基于信用的金融领域就有非常大的改观和变革。
上图左边是我们对这些信息数据的收集,建立平安企业的大数据平台,相当于对信息进行了收集整合和数据仓库的建设。右右边我们建立了平安脑智能引擎,对于收集出来的数据建立一种量化模型,对风险进行精确衡量,在风险衡量当中精确调整到每个业务线当中,这个风险代表了收益和所承担的风险到底是多少。
数据平台解决方案
数据平台的方案面临量化的问题。在金融领域,个人零售当中我们接触到的数据比较细化,因为个人零售当中收集到的数据比较多,比较容易收集。比如说淘宝上买东西有交易记录,收集APP上翻屏点击的记录,信用卡消费记录,坐飞机的交易记录,但是对于企业来说,因为有信息隐私保留问题,收集到的很多企业数据是杂乱无章的,不像个人数据那么整齐,也不像个人数据那么结构化。
我们面临到的,可能有些是文本,有些是图像,甚至是声音和影视,客户经理来现场拍的照片,对于我们来说是图像的数据。如何把分门别类的数据在数据库中达到量化存储,首先对数据进行量化以后,企业大数据的仓库才是有效仓库。
我之前在美国,在对冲基金领域的时候买了很多数据。SymphonyIRI在零售业,对每家连锁企业运输销售数据都做了高度的整合和量化,这是一种时间序列化的数据,放在模型里面跑非常方便。Patent Board能清楚知道专利属于哪些公司,专利有哪些价值,专利对公司主营业务有什么影响。新闻舆情,比如说Ravenpack,能知道新闻和企业的相关性有多少。供应链,比如说SPLC&PEERS。
在中国进行企业大数据建设的时候,发现这些供应商基本上属于比较空白的状态,在金融领域没有一个比较成熟的量化企业数据供应商,提供每一个领域的细化服务。平安科技在这个领域做了领头羊的角色,我们率先拓展这个领域,对于专利、舆情、关联关系,法律诉讼等数据整合进行量化。我们做了一些研究,建立了大数据仓库,在这方面投入相当多的人力、物力和成本,对于中国的领域内做了一些行业对标,在数据量化领域,做了一些比较开拓性的工作。
我们面临的第二个难题是数据整合问题,比如说大同煤业,有行为、运营、市场内部、外部,宏观数据等等数据来源,企业大仓库里有几十个纬度的数据,应该如何汇总关联到某一个具体公司?现在想研究某家公司,想要做的是什么?右图这样树状的结构当中和这个企业相关的所有数据都能够关联上。看起来是很简单的工作,但是在数据建设当中有很多整合的工作要做,比如说企业之间所有代码的关联,行业上下游的跳转,以及把基础的数据聚合成指数。还有分类工作,分类是比较系统化的工程,在其他纬度的数据当中,如何进行标准化分类以及量化的计算?这是后期模型建设当中要解决的问题。
对这些数据进行梳理中需要很多基础层面的工作,这些层面的工作需要有一个良好的设计,对于所有子公司数据进行收集,在内部外部都有整合,整合完之后建立一个非常清晰明确的体系。市面上做金融投资的企业,会用到一些其他的信息终端,终端获得的信息非常有限。平安科技建立的企业大数据,输入一个企业的名称获得的信息有金融终端获得到的十倍之多。
第三个是整个数据形成的生态圈的概念。我们建立一个仓库之后,仓库如何运营?在运营层面上有一个正向反馈的过程,需要建立一个比较活泼的生态圈,保证数据都是新鲜的,仓库能够运营下去,左图是我们对企业提供云服务,企业运营数据相互补充,牵扯到很多保密条款。我们做云服务的交换,也接触过很多基金信托公司,他们把数据给我们,我们为他们提供信用方面的服务。对于集团内部子公司,在内部云当中给他们提供专业化服务,专业化公司和他们的客户交流当中,大数据也会直接为他们提供交互。这样企业的反馈,包括运营当中的反馈也会直接反映到仓库当中。
基于云的概念,整个企业大数据运营当中,每天都会补充海量的数据,每个细节的反馈都会被纳入当中,形成一个正向的健康反馈,所有的数据都是最新的有用的,也包括全牌照公司下有数以十万计的保险业务员,他们收集的数据都汇集到这个当中。
金融大数据的应用
金融大数据的应用,仓库建完以后能够为集团创造什么价值?
首先第一点是数据的框架,从左往右看,最左边是企业的基础数据,具体应用分为投前、投中和投后。投前一般是了解一个客户,要不要做这笔业务。投中是投的过程当中流程方面的监管。投后是成为了我们的客户以后,我们成为股东、借款方,需要对他们的风险进行监控,如果企业其他的债权价格有波动,我们要处置。
然后是资产清收,有些企业如果变坏了,我们要提前做资产清收,中国有四大不良资产处置公司。现在银行有些资本自己处置一下, 200亿的不良资产,可能只有10亿左右的价值,既然这样我们为什么不自己做清收?如果自己清收回来50亿,剩下来的40亿相当于我们自己创造出来的价值,从投前、投中、投后,都是完全覆盖一条龙的服务。
投前,主要需要推荐优质客户,对风险要点做一个梳理,有整体的画像,让审批人员直接知道这个企业的运营情况。投中,对于平安集团这样特别大的集团,子公司有十几、二十多个,业务线有五十多条,资本市场、非资本市场,包括各种金融工具都有涉及,有上百种之多,这么多不同的金融工具如何监管?由于涉及到的模板有上千个,如果没有企业大数据进行管理会比较混乱,我们有统一的风险标识加强企业管理。
然后是企业资产的清收,在过去一年多,中国经济形势下滑,不良资产处置是比较热门的点,大数据该如何支撑?其市场估算至少在千亿规模。
在投后管理中的应用,大数据所起到的应用是风险管理的前置。无论在银行、资本还是任何一个投资类型的公司,风控一般做什么?一般是企业出了事才会知道,现在很少有能力,或者有手段让他们提前知道风险。中国有很多基金券商,有时候我也和他们交流,你们每天上班怎么做风控?他们说一上班就读报纸,哪个公司有风险,就让我们查。这其实是非常无效的监管方式,他们没有有效的信息获取通道,如果等报纸报道后再去清收,很可能资产没有办法处置了。以前传统的介入窗口,很可能在重大事件报道以后才去处置。举个例子,资本市场债券没有流动性了,多的时候可能要折价40%到60%才能将这笔债券卖出去。
但是如果能够提前获知这个风险,哪怕早一个星期,折价10%就可以卖出去,如果迟一个星期,折价70%都卖不出去。金融大数据将不能实时监控的数据,商品管理,行业衰退等基于几十个纬度的大数据我们进行批量监测和自动化系统的监控,有这个苗头我们就提前发出预警。如果早一些时间知道,我们的处置窗口就会提前,对于流动性敏感的债券来说,很可能是几十亿上百亿的产品。
这是投入监管当中最典型的应用,早期预警信号。行业里其实有很多企业在做,比如说做风险的咨询的公司,安永、德勤等都做了这方面的探索。我们做行业研究之后发现他们所有的信号都是单一信号,相当于出了事就做这方面预警。比如检测到企业高层赌博被抓了,就发出预警。今天发一个预警信号A,明天发预警信号B,然后是C,然后是D,天天这样发信号,业务没有办法做操作。出来的信号债券卖还是不卖,如果卖会亏几亿,如果不卖,万一卖不出去,这个责任谁来扛,对于整个集团的流程管理是没有任何帮助的。
我们相当于把这些数据在纬度上用机器学习人工智能的模式进行整合,这么多模型积累在某一个点上,超过我们可以容忍的限度以后,会推出来一个明确的信号,而且这个信号有指示,预警这个企业3个月内可能出问题。如果是银行的话,这笔信贷要提前抽贷,或者是补充抵押物等等措施可以提前行动起来。我们推的是综合的、明确的,经过机器学习判断的信号。我们做了行业对标,对于整个行业来说误报率都降低了几倍之多,就我们现在的研究结果来看,在平安内部实现一个综合预警概念,而不是零零散散给大家推纬度的零散信号。
投前审批的应用。投前审批的*度比较高,告诉你客户经理需要处理贷款,后面有跟踪相关的流程,这笔贷款上报风险监控,再报到支行的行长,备案以后流程结束就可以了。在投前审批当中,信贷的审批人员有很大的*度,不能告诉他这个企业能做还是不能做。很有可能客户经理和这个企业特别熟,和他有10年的交情,虽然大数据觉得不能做,但是我觉得他可以做。投前审批不会强制你能够做,或者不能做,但是我们会把所有的信息都做出来。是企业全新画像的概念,把企业的信息汇总在一个交互式的界面,做了一个交互性的系统,看到整个企业在不同时间的趋势,关联方的所有信息。
我们还做了一个基本的手机APP,在外面拜访的时候手机移动端可以看到企业信息。这个方面对于四大行来说不是问题,因为在每个乡镇都有网点,但是对于区域性银行,像平安银行,网点比较集中在一二线城市,这是非常大的跨越,不需要下到三四线城市,来回两天核查一个数据,以前需要现场做的事情,现在远程都可以解决掉,这样极大提高了工作效率。
特殊资产处置,这几年对于投资领域是非常大的课题。无论是每个银行还是每个资产管理公司,都有不良资产,很多时候人工都已经梳理过很多遍了,但是这个时候这笔钱能不能收回来?在传统的特殊资产处置当中,说的再通俗一点,怎么把欠的钱收回来。对于零售领域来说,可能是一群光头大汉跑你们家躺着。但是对公领域没办法这样做,哪怕个人把资产转移给亲属,我们对于他的亲属没有索赔权,银行不能起诉他的妻子或者孩子,没有起诉子公司的权利,对公业务是非常大的痛点。
传统的资产处置流程,一个是缺乏数据的关联整合,有一些现场数据的收集,客户经理一个一个跑,跑到现场看这个企业运行的怎么样,房子有没有停工。
第二方面是非现场的数据收集,大数据时代,有很多数据可以通过其他渠道获取。但是以前这两部分数据没有整合,因为特殊资产处置是非常底层的级别,当然更无从谈起。缺乏统一的管理平台,人员任务没有办法管理,总行都不知道下面的业务员获得哪些线索。
第三方面是策略的制订,比如说,是诉讼还是不诉讼,每一项都是一个策略。银行的支行人员,能不能在有限的数据支持下做出一个最佳的判断,这是很值得考究的问题。我们研究以往的案例和数据,发现银行客户经理做出来的判断,很多时候是错误的。明明有其他的业务可以合作,而不是直接推到诉讼台上。我们建成一整套基于大数据的清收体系,前端的业务人员,他们在现场收集出来的数据直接汇总到数据平台,他们每天的任务,今天跑了几个点,去了几个城市都汇集到这个平台,合成一个大数据分析引擎。自动通过规则判断,机器学习,判断出来哪一种是最佳策略,可以最大程度挽回不良损失。
以前可能一个策略错了调整需要90天,现在用了这个策略,在3天以内策略就可以做出反馈。因为别人不知道的东西我们先去了,我们如果比别人早一步,哪怕只早一天就可以挽回几千万,甚至上亿的资金挽回。
每个清收关联对象的调查数目也有变化,以前对于一个不良资产可能查3个子公司,调查20个人就结束,因为不知道该找什么人谈话,不知道该去什么地方看。用大数据以后调查的人和企业的数量增加了20倍之多,因为知道该去哪儿找这些人,调查对象多了,直接导致挽回率大幅度提高。
前面是整个大数据企业仓库在应用方面支持投前,投后,以及不良资产清收所作出的一些工作以及他们在实际应用当中所取得的效果。我们这个系统在第一线有非常详细的应用,在技术方面已经有很详细的工作,有机会再跟大家分享。