大数据平台用于处理低价值海量结构化数据、半结构化与结构化数据;其与数据仓库协同,支撑数据应用系统,弥补数据仓库的不足。从控制架构复杂度的角度考虑,应用系统应选择其主要数据源作为数据整合者,不同时与两者直接交互数据。
传统数据仓库架构制约了数据存储能力和计算能力,为了应对这些问题,基于 Hadoop 的分布式数据仓库已经成为数据存储中广泛采用的事实标准。但 Hadoop 在 SQL 兼容性和复杂逻辑即时查询的情况下还不能完全替代传统数据仓库,所以一般在传统数据仓库的场景下,使用前期共存后期逐步替代关系,即传统应用继续基于传统数据仓库技术,大数据相关的新应用采用大数据平台(大数据应用指需要做混合数据处理和传统数据仓库在规模、成本、效率方面都无法满足的应用)。数据仓库承载及时性、准确性要求高的核心事务型关键应用,大数据应用开发平台承载数据仓库痛点业务迁移和大数据创新业务,这两者都会通过这种混搭架构实现。
在企业业务方面,企业中存在各种各样的数据类型,例如结构化、半结构化和非结构化数据,针对不同的数据类型,大数据平台有针对性地采用了不同的存储组件,存储层架构示例如图1所示。
图1存储层架构
架构中对于不同的数据类型规划了四种存储进行分别存储。其中最底层的存储组件为HDFS(Hadoop分布式文件系统),Hive、HBase和Solr为上层存储组件,其存储的数据最终也保存在HDFS中。分布式存储(HDFS)作为基本的存储组件,HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合在大规模数据集上应用。