与传统金融机构相比,互联网金融打破地域限制带来便利的同时,也使维权成本变高。
由于互联 网金融的所有交易通过非面对面的方式进行,从开立账户、条款说明到签署合同都是通过电子数据得以记录。但这些电子数据容易被篡改和灭失,消费者往往存在举证困难的可能性。
基于上述问题和挑战,我们需要一个全链路、智能化、可扩展的数字化经营体系,它面向的不仅是分析师,还有不同事业部不同职能的员工,他们看数据的颗粒度都不一样。比如,数仓管理人员是按周或按日维度,一线运营同学可能是小时级甚至分钟级,风控同学则要求数据的实时性,产品同学可能需要过去三五年的历史数据,去研发一套新的保险产品。
面对不同的数据需求,分析的粒度也各不相同,那么怎样更加高效地完成分析,而不是做重复的工作。那就需要数据平台的细粒度、强实时性、高效能。
现在,无论实时数据仓库还是历史数据仓库,数据的维数越来越高,用户分析需求也越来越复杂,我们应该如何对高维实时数据和高维历史数据进行建模、存储和分析?如果维数很高,比如银行账户,维数达到100或者上千个,我们怎么灵活地建模?同时考虑分析的效率?
显然,实时数仓无疑是最佳选择,银行最重要的是当天的流水。所以更多的需求都应该是银行的流水数据产生的。实时的数据量很少。只有当天或几天的数据(保存几天的数据可以增加容错的机制),所以实时数仓关注的应该是指标,而非各种各样的数据。模型也应该是轻量级的,而非传统的数仓是非常沉重而沉淀的数据。
具体而言,我们可以得分几步来做:
1.数据全部收集到一个数据平台。不管是实时的还是历史的。
2.做好数据库的清洗和基础关联,和宽表的建立。
3.根据对数据的实时性要求进行分级处理。
4.成立每个业务分析团队在款表上做分析。
5.分析的数据再返回宽表,并形成数据模型,供以后或其他业务线使用。譬如标签体系,用户体系。
总结而言,针对金融行业或者交易类业务的独特性,需要有商业化的反作弊监管,根据实时短时间之内的行为,判定用户是否为作弊用户,做到及时止损。
金融类场景对时效性要求极高,通过对异常数据检测,可以实时发现异常情况而做出一个止损的行为。收集指标或者日志等统计各个系统的指标,对指标进行实时的观察和监控等等需求场景,都是可以通过实时计算 Flink 产品解决的。