大数据形势下的三种数据融合方式:组合、整合和聚合

时间:2024-02-29 19:56:15

一、 跨行业数据合作背景

国务院副总理马凯,曾经在2015贵阳国际大数据产业博览会中提到:

融合是大数据的价值所在,应大力推动大数据与产业融合,面向工业、交通、物流、商贸、金融、电信、能源等数据量大的行业领域,开展数据开发和交易,充分挖掘大数据的商业价值,促进产业提质增效升级。

另外,《大数据时代》的作者舍恩伯格,在该书中也提到一个观点:“大数据不是随机样本而是全体数据”。

无论是从国家*部门还是领域专家都不约而同的提到数据需要融合,数据融合才有价值。

二、 为什么需要数据融合?

其中最重要原因是用户数据的割裂性,无法全面勾勒用户全貌。比如你的购物数据在京东天猫、通话数据在移动电信、交易数据在银行金融、社交数据在腾讯微信、搜索数据在百度等等。

数据的割裂性导致对用户的认识比较片面,可能做出错误的决策。比如:现在京东与头条的“京条计划”就是数据合作的一个案例,就是你在京东搜索的物品,会不定时在浏览今日头条中呈现,增加购买率。这里有个缺陷是如果已经在淘宝购买的物品,但还是会出现页面,导致用户体验感知下降。

数据融合的另一个价值就是新规律新价值的发现。比如以前用户信用主要基于是否有历史借贷违约,但很多人无借贷关系数据,如何评定。芝麻信用就创新的融合上网数据、身份特征、行为偏好、社交关系等生活属性数据,来侧面刻画用户的信用。这就是数据融合价值。

不同行业数据的融合,具有互补性和完整性,将有效提升数据内涵价值。

三、 数据融合的三种方式

数据融合的方式从交互程度来讲,可分为数据组合、数据整合和数据聚合等三个层次,由低到高,逐步实现数据之间的深度交互。

层级一:数据组合由各方数据的简单组合形成,能够全貌客户用户特征。该数据融合产生的是物理反应,数据属性本质没有改变。如一份征信报告,有交易数据,有通信数据,有购物数据等,简单的拼装而成。如下图:

层级二:数据整合由多方的数据共同存在才能够实现产品价值。该数据的融合产生的是化学反应,有价值产生。如:黑名单,通过金融数据和通信行业数据共同才能判断是否黑名单。如该用户有异常金融行为,在加上该用户频繁换手机和停机次数多,基本可判断黑名单用户。

层级三:数据聚合(核反应)由双方数据聚合孵化产生出新的产品,新模式。如:分期贷款。通过大数据风控能力,不仅减少审核流程,而且也能进行贷中监控和贷后管理,还能够对失联用户进行定位和催收,是一揽子计划。

四、 面临需要解决的问题

同样数据融合并不是一件容易的事情,需要解决数据壁垒,数据标准,数据安全等问题。其中较重要的三个问题是:

问题1:数据安全问题

如何保证数据安全,保护客户隐私?客户知情权。如何保障符合集团或公司规定的数据变现要求?数据不出库。

问题2:市场定价

市场定价市场价格如何确定?基于成本OR基于需求?市场的最终定价权由谁主导?多方数据提供者,听谁的话?

问题3:利益分配

利益分成如何界定各方数据价值和分层比例?

这些都是数据融合时遇到的实际问题,也是在数据创新时必须要解决的。