金融行业是经营风险的行业,风险控制能力是金融机构的核心竞争力。通常而言,金融机构一般是通过给客户的信用状况评分来计量贷款违约的可能性,并通过客户的风险水平进行利率定价。
而传统的信用测算主要是利用历史借贷数据和财务数据对借款人的违约风险进行分析和判断,这种方法尽管在很长一段时间内被广泛的金融机构所使用,但此方法的评价标准单一,评估结果不够全面,同时存在一定的滞后性,更为严重的是,这种基于历史数据的评估方法无法对缺乏历史借贷数据的借款人进行信用风险评估。近年来,金融机构纷纷寻找新的手段,借助新的技术,尝试构建新的信用风险评估模型。
大数据风控技术正是随着大数据处理技术、计算机科技和互联网技术的出现和升级而产生的一种基于数据挖掘、机器学习等大数据建模方法的信用评估体系,目前被金融机构广泛运用到贷前信审、反欺诈、贷后管理和追偿清收等环节中。
一、银行可利用的大数据有哪些?
大数据是指“无法在一定时间范围内用常规工具进行捕捉、管理和处理的巨量数据集合”。与传统数据集合相比,大数据不仅仅体现在规模大和复杂性,更为重要的是,大数据往往包含了大量的非结构化数据,包括图片、视频、语音、地理位置等,具有维度广、时时更新等优势。金融业,特别是银行业,近年来由于业务积累和渠道搭建,聚集了大量数据,成为大数据应用的重要领域。
以银行为例,目前银行能够利用的大数据主要包括以下几个方面:
▲ 表1 目前银行大数据来源及分类
二、银行大数据管理方面存在哪些问题?
1)数据使用效率低:数据的加工和使用超强依赖IT人员,不能提供自助式数据服务。
2)外部数据杂乱:外部数据源越来越多,如微博、新闻媒体、淘宝、电商数据等,如何将这些外部数据整理、加工成可供行内正常使用的真实、准确的数据需进一步探索。
3)数据类型复杂:数据资源非结构化数据占有很大比重,且数据类型越来越复杂,如视频文件、音频文件、图片文件、邮件等,传统的Oracle,SQL Server等数据库不能满足该类数据的存储、搜索和分析。
4)存在大量的数据孤岛:银行等金融机构存在不同类型的应用系统,数据被分散在各个应用系统的数据库和文件系统中,导致数据不能有效的共享;跨系统的、综合性的数据搜索、分析困难等。
显然,上述数据管理方面存在的问题难以单纯靠人工解决,那么如何有效地整合和利用银行积累起来的大数据资源,让大数据资源更高地为银行的信用评估服务,这就需要搭建综合型的大数据风控平台。
三、大数据风控平台应该是怎样的?
大数据风控平台是一款集大数据处理、OLAP分析、在线分析、离线分析、数据挖掘、数据模型、数据可视化展现于一体的综合性大数据分析平台,它提供了基于hadoop存储、数据立方体预计算的OLAP可视化分析功能,使用户通过托拉拽的简单操作即可在亚秒级的时间内完成多维度、全方位的数据分析,并以多种可视化方式展示分析结果,集成了主流的数据挖掘算法和工具,帮助用户快速建立数据挖掘模型。
大数据风控平台的基本特征主要有三个:
1)大数据风控平台能够处理的数据种类多,维度更广,大数据风控平台不仅重视传统的信贷变量,还可以分析借款主体的社交网络信息等信息,能够为信贷缺失的群体提供基本金融服务。
2)大数据风控平台不仅仅关注历史财务数据,还更加关注借款主体的行为数据,能够在充分考察借款人借款行为背后的线索和线索之间的关联性基础上进行数据分析,降低贷款违约率。
3)大数据风控平台对模型可以不断迭代和动态调整。机器学习技术使得大数据风控平台的风控模型可以将原始数据转化成指标需要进行不断的迭代,不同模型的权重值可以根据样本进行动态调整,反过来也能不断改进模型的评测效果。
四、大数据平台的数据治理方案
搭建一款集数据采集、存储、搜索、加工、分析为一体的大数据平台,融合结构化数据、非结构化数据,实现了统一数据架构,对海量异构数据的存储归档、信息组织、搜索访问、安全控制、分析可视化,以及数据挖掘、数据治理等,如图1所示。
▲ 图1 银行大数据平台数据治理方案
数据是分层次的,不同的数据其属性、处理方式、价值都是不同的,如图2所示:
1)源数据:源数据是各个业务系统中生成的大量的业务生产数据,应加强备份和归档工作,防止数据的不完整和损坏。
2)归档数据:归档数据又称为细节数据,平台需要抓取所有的源数据进行归档,形成完整的数据库。
3)整合数据:对细节数据进行整合,形成按照主题存放的汇总数据集市。
4)指标数据:针对客户、员工、管理者,计算生成内容丰富的指标数据源,为进一步做数据挖掘准备丰富的数据源。
5)决策支持数据:用于决策分析系统、智能化分析系统数据,如客户产品推荐、客户细分、销售预测、精准营销等等。
▲ 图2 不同数据层次的处理方案
对于历史数据来源于行内数据平台或其他来自于数据库的数据,行内数据可直接用ETL系统工具直接抽取数据,其他数据库数据则可用Sqoop工具抽取,放入HBase通道中,从而满足实时历史数据的查询需求,如图3所示。
1)文件格式数据:直接使用行内ETL工具直接导入到大数据平台中。
2)实时变更数据:建立专用通道,支持数据实时装载到大数据平台中。
▲ 图3 行内数据和行外数据整理
对现有各种数据库的各类数据进行清洗、转换、并加载到大数据平台。根据代码标准,整合数据类别,形成数据覆盖全面、标准化、规范化的数据集市。
大数据平台对结构化数据采用分布式技术的开源数据仓库,支持各种报表软件的访问和第三方软件集成,同时满足结构化数据的计算和存储。
大数据平台定义对数据的各种加工任务,主要表现在以下几个方面:
数据集成:根据原有的数据生成新的数据;如根据关联表格设置其他维度生成新的汇总表格等;
文件处理:将视音频文件、图片、邮件等转换成识别文字;
挖掘数据:对平台数据进行各类数据挖掘处理,如关联分析,分类,聚类,回归预测等;
计算指标:实时计算各类指标数据,如计算客户的活跃度,价值,忠诚度等。
大数据平台以可视化方式呈现数据查询、数据视图、报表等。
五、银行大数据风控平台的建设方案
常见的大数据分析平台架构有Hadoop、Spark、Storm、Samza等,而基于Hadoop构建大数据风控平台具有分布式云存储和云计算能力,提供了核心分布式数据仓库、分布式列数据库解决方案,还具有良好的扩展性,常用在银行大数据风控平台建设中。本文基于Hadoop搭建大数据硬件系统,结合JAVA开发,实现海量数据的分布式存储和处理。
银行大数据风控平台是基于PC服务器部署,无需购买数据库的软件及硬件,实现小时级别的安装部署。甚至实现数据并行传输、实时数据更新服务、查询数据秒出结果等等,系统整体硬件框架如图4所示。
1)分布式计算和存储,根据数据量增大快速水平扩展。
2)面向多应用系统,多数据类型和多数据源,实现统一数据架构,融合结构化、半结构化、非结构化的数据,实现数据的安全控制和统一建模。
3)为其他应用系统提供API接口,实现第三方系统数据集成并提供各种数据服务。
4)以数据归档为核心,全面实现数据的全生命周期管理和全数据搜索、实时数据分析可视化以及交互式数据发现等。
5)支持传统SQL结构化数据访问和传统BI软件的集成。
▲ 图4 大数据风控系统硬件框架图
大数据风控平台的软件设计理念和技术,能够解决海量数据容纳问题、多业务数据源整合问题、多数据格式转换问题等,如图5所示。
1)整个系统软件部分可基于JAVA开发,运行在Windows和Linux操作系统上,节点同时运行在物理机、虚拟机、Linux、Windows上。
2)所有后台数据服务程序可直接运行在JVM上,实现灵活、高效的分布式运算。
3)用户使用管理功能可基于J2EE开发,WEB用JSF2.0实现,可扩展性强,便于二次开发。
4)采用分布式存储和搜索技术,数据集中平台最根本的要求是处理海量的数据,高效融合结构化、半结构化、非结构化数据的管理。
▲ 图5 大数据风控系统软件架构
六、银行大数据平台产品应用
通过大数据平台内置现成的客户统一画像,根据获取实时数据,实现客户精准画像,通过迁移学习、机器深度学习理论,对客户360度画像,分析客户行为习惯,甚至实现客户精准营销应用,智能推送优质客户资源,严格控制风险。如图6所示。
▲ 图6 银行大数据平台产品应用
银行建立大数据风控平台可用于信贷客户的反欺诈分析、信用等级评估、贷后风险监测预警与催收等环节,严格进行风险防范;重点关注个人客户或企业客户在银行体系内外的负面信息。
银行体系内的负面信息包括:信用卡逾期、贷款逾期、黑名单信息等;银行体系外的负面信息包括:P2P/小贷公司等黑名单信息、公检法的诉讼案件信息、国家行政机关处罚信息(工商、税务、一行三会、协会等)以及网上负面舆情(虚假宣传、误导消费者)等。从这些数据出发,全面评估个人客户在银行的风险等级,为银行的风险防范提供决策支持。如图7所示:
▲ 图7 大数据平台产品之风险控制
通过大数据风控平台将结构化数据、非结构化数据、半结构化数据统一存放在数据模型之中,并将外部数据与内部数据尽可能的匹配,实现对现有客户更加全面、充分、详尽分析,如图8所示。
▲ 图8 客户全面行为特征分析和指标运算
为了满足线上营销和线下营销相结合的场景,数据的进入根据营销方式分为实时数据、批量数据、画像指标数据、建立复杂网络体系和客户智能信用分模型。
1)实时数据:将客户线上行为日志数据信息实时推送到大数据平台,存入数据模型之中,实现数据标准化、统一化工作,并且对实时数据进行线上行为实时分析。
2)批量:每日定时将数据汇总到大数据平台,存入数据模型库中,实现数据标准化、统一化的工作,并对数据进行加工。
3)画像、指标数据运算:根据预设的场景,进行客户信息全面画像和各项指标运算,从而获得客户的全面特征,以及产品特征。
4)构建复杂关系网络体系,实现线上各业务通道场景互通,主要实现基金理财平台、三方支付平台、电商/O2O平台、游戏平台、银行网申平台的互通。
5)创建客户智能信用分模型:以全网大数据为基础,结合大数据风控平台,以诸多业务驱动为导向,创建客户智能信用分。输入:身份证号,手机号;输出:信用评分。
根据客户的负债信息、稳定性、负面信息、行为偏好、还款能力、还款意愿等六个维度,结合客户旅游、社交、支付、保险、基金、理财、电商、非银信贷、O2O、银行信息等全网各类数据信息,依据不同加权比重,建立客户智能信用分。
通过深度学习理论和迁移学习理论对客户进行精准分析,获取客户源,并进行理财产品的精准推荐。
1)线上实时营销
使用数学模型算法,根据客户或客户群线上连续行为,自动校正客户画像或产品画像之间的关联情况分析,从而形成线上产品的推荐服务,产品推荐可按照客户可能关心的内容放在醒目位置自动排序,从而有效提升客户体验。
2)线上交叉营销
将不同产品或业务交叉推荐,根据客户的交易记录分析,识别小微企业客户,然后用远程银行来实施交叉营销。
3)线上个性化推荐
根据客户的理财偏好、资产规模、年龄、工作等维度,分析其潜在的金融服务需求,进行有针对性的营销推广。
4)线下营销
除了内部交叉营销销售、客户忠诚度分析、向上销售等传统的分析性内容外,还需要利用大数据平台,将行内数据与外部数据整合,建立精准营销数学模型,寻找更多的营销机会。
5)精准营销模型建立
寻找理财客户:利用大数据平台筛选客户资金在5万及以上的储蓄存款客户,不定时的推送理财产品信息;对于行外客户,借助于P2P平台或第三方平台推送的白名单客户,可以为其提供理财服务,将资金留在本行。
寻找贷款客户:结合行内数据、第三方房产网数据以及移动设备位置信息,通过数据平台寻找可能购房或购车客户群体,为其提供金融服务。
6)产品创新
通过对特定数据分析和提取、产品核算,对比各类客户的产品使用率、收益率,结合互联网舆情信息,对不同客户群设计差异化的创新产品。
7)产品评价体系
根据产品评价指标建设评价模型,实现对产品的系统评分,获取每个产品指标数据,可采用登记评分法对数据进行处理,反应每个产品的每项指标在组内产品的排序。
活动推荐
10月19日,成都:中生代技术金融科技私享会,携手京东、AWS、建信金科、新金融科技专家,聚焦金融科技创新与敏捷转型热门话题。
11月15日,广州:Gdevops全球敏捷运维峰会将举办2019年度收官盛会,重点围绕智慧运维、DevOps、数据库领域,携手阿里、腾讯、京东、新浪微博、甜橙金融、联通大数据、微众银行、贝壳找房、新炬网络等技术代表展开年度技术总结与发展趋势展望,扫码汲取全年技术精华。
#专注技术人的成长#
本文由程序员茶特约播出,400位互联网一线CTO钦点正山小种红茶,养胃提神减脂神器,秋季必备