数据仓库的应用如同沙里淘金,需要多层筛选,而建立完善的应用模型将事半功倍。与国外银行相比,国有四大商业银行最大的优势就在于拥有海量的客户信息数据。布局广泛的网点虽然能为更多的客户提供服务,但广泛服务带来的效益非常低。开发数据仓库,对庞大复杂的数据信息进行科学的整理和细分,已是当务之急。
篮子里装些什么?
目前,有两种数据仓库的建设模式,一种是先构建整体的数据仓库,再由此建立数据集市,另一种是先建数据集市,然后通过一系列维数相同的数据集市递增地构建数据仓库。后一种方法更能满足近期目标的需求,但增加了未来转换为独立的数据仓库的数据体系结构的困难。各银行实施的数据集中工程恰恰为实施集中式体系结构的数据仓库提供了基础。
开发数据仓库系统,首先必须确定系统所包含的主题域,就是决定在数据仓库这个大篮子里装什么东西,这需要对大的数据主题进行分解,从业务上确定分析主题的大类、小类,并进行主题定义,直到每个主题能够直接对应一个主数据模型为止。
银行典型的主题领域包括客户、产品(账户)、交易、渠道、营销活动、资产、财务、分支机构和职员等,具体需要分析哪些主题由业务目标决定。以个人业务的数据仓库开发为例,客户主题包括客户的基本信息、账户信息、交易信息、交易机构等。产品主题包括每个产品在各个历史时期、各个分支机构的销售额、促销力度、销售周期、销售成本等,如定期存款的余额、某阶段的新增额,某个理财产品的销售额、销售周期、销售成本等。
下面将介绍对于银行来说最重要的客户价值的评估、产品分析和交易分析的模型的建立。
客户价值评估
我国四大国有银行有着巨大的客户群,要对全部客户进行分析是不可能的,既是浪费资源,也没有必要。
所以数据仓库的第一个应用就是根据客户对银行的价值挖掘出中高端客户。要计算每个客户的业务价值Vb,应统计出客户各类产品的业务量Qi和交易笔数Ti,业务量Qi按相应的价格Pi折算,同时减去交易产生的相应的成本Ti*Ci(Ci为单笔交易成本),公式简化为:Vb=∑(Qi*Pi- Ti*Ci)。这样的计算量比计算余额大得多,算法也更复杂。成本的估算比较复杂,包括各类资金成本、人员成本、设备成本等,不同的交易渠道成本差别很大。
客户产品余额主题的事实表为客户产品余额或日均余额表,根据客户各类账户按产品汇总统计,每个客户每个产品每月存放一条记录。主要维度表有:月末日期维度、产品维度、客户维度等。应用模型示意见图1。
虽然模型很简单,但有很大的计算量,必须考虑以下两个问题。
● 数据聚集粒度的粗细程度。在事实表中,如果存放最细的产品数据(如人民币定期存款整存整取三个月),记录数会很大,如果仅把产品划分为资产、负债,可能分析不够深入,需要根据业务需求及数据实际情况平衡考虑。
● 数据的保留时间。假设有500万个客户,如果平均每个客户有两种产品,每月统计到事实表中的数据就有1千万条记录,每年就要产生1亿多条记录,这会浪费磁盘的空间与工作时间。当然可以在此基础上按大的产品类型进一步汇总,每个客户每月只存放一条记录,该记录包含了各产品大类的内容,这样,可以减少磁盘空间的占用。
根据这个模型还可以发现流失的客户与新增的客户。
客户产品分析
市场营销的最常见的方法是细分客户群,通过分析各客户群的特征,为不同的客户群提供不同的服务。同一客户群的客户特征非常相似,如客户的产品属性、地域、收入、职业、学历、年龄等。客户细分主要从两个角度出发:人口统计学和客户所购买的产品。人口统计学是客户的收入、职业、学历、年龄及客户所在地域、客户所在地域的人口特征与经济特征等基本信息,但这些信息并不能给银行产生直接效益。一般来说,客户细分主要基于客户所购买的产品进行,是数据驱动的客户细分,客户所购买产品的价值直接体现了目前对银行的价值。在产品细分的基础上结合分析收入、职业、学历、年龄等。
根据客户购买的产品情况,可以把客户划分为存款类客户、贷款客户、卡消费类客户等。根据不同的客户,提供整合后的银行产品和服务资源,帮助客户及时了解账户及相关信息,调整资源配置与投资,实现个人资产收益最大化。
客户交易分析
客户交易主题分析的事实表从客户账户交易流水生成,记录每类交易的发生情况,主要维度表有:日期、渠道或机构、交易类型、交易账户、产品等。模型示意见图2。
图中有八个维度表,可以对客户账户的交易类型、交易渠道及交易机构等进行分析。虽然有八个维表,但一个账户只属于一种产品,同一时间点只能有一个状态,交易也很少在多个机构发生,不同产品的账户交易可能只允许在规定的机构、规定的渠道进行。
极限情况下,事实表中的记录数=账户维表记录数×交易类型维表记录数×渠道维表记录数×机构维表记录数。一般省级分行的账户数约一千万左右,发达地区省级分行账户数约一千五百万左右,交易类型维表记录数、渠道维表记录数、机构维表记录数即使设为极小值,如分别为2、5、5,这样事实表中的初始记录数就达到5亿条。根据实际情况,账户的日活动率约为5%,据此估算一千万账户一个月的累计交易笔数约为一千五百万,一年的记录数也近两亿,这样需要占用大量的磁盘空间。我们可以把交易类型维简化为借与贷,不统计没有发生借、贷关系的交易,直接在账户事实表中使用借方发生额、贷方发生额两个字段,这样的数据量就减少了一半。
在这个模型基础上,还可以进一步建立客户忠诚度模型等。传统OLTP应用是按照SDLC开发生命周期开发的,而数据仓库是在螺旋式开发方法学的指导下开发的,需要一个持久的过程,业务部门在业务的开展过程中会不断提出新的需求,也就是说模型的开发同业务的开发一样是无止境的,这将是一个不断探索、不断完善的循序渐进的过程。