数据仓库与大数据有哪些区别?

时间:2022-10-26 15:10:33

概念不同

数据仓库是上世纪 90 年代就已经出现的概念,其出现的背景是企业的信息化及伴随着各种信息系统的出现如 CRM、ERP等。具体请参照 Bill Inmon 或 Ralf Kimball 的定义,其中 Bill Inmon的定义接受度最广:数据仓库是面向主题的、集成的、反应时间变化的、相对稳定的数据集合,用于支持管理决策。

大数据是10多年前才出现的概念,其背景是互联网时代的到来和数据大爆炸,具体请参照 McKinsey, Gartner的定义。其中个人还是最喜欢 AWS 比较接地气的定义:Big data is when your data sets become so large and diverse that you have to start innovating around to collect, store, process and analyze data.

用途和价值不同

数据仓库相对用途比较单一,主要用于支持管理决策,多服务于各种 BI 报表、仪表盘、自助分析等应用。

大数据用途非常广泛,除了决策支持外,还常见于互联网搜索、市场营销、实时计算、物联网、机器学习等各种新型应用中。

处理的数据量与类型不同

数据仓库是小数据时代的产物,且主要用于结构化数据的分析,一般处理的数据量从 GB 至 TB 不等。数据来源包括企业的各种信息化系统,如ERP、CRM、SCM、MES…

大数据是互联网时代的产物,用于海量的各种类型的数据存储、处理与分析,包含结构化、半结构化、非结构化的数据,其处理的数据量一般起始以 TB 为单位,PB 也非常常见。其数据来源非常广泛,包括企业的信息系统、在线网站、物联网设备、网络爬虫、甚至第三方购买数据。

技术与产品成熟度不同

数据仓库发展了这么多年,技术与产品相对较为成熟,且有完整的建设方法论。技术上大多以大规模并行处理(MPP)、内存计算、列式存储为核心,产品上以 Teradata, Oracle, Vertica, Greenplum, SAP BW 等为代表。

大数据技术经过10多年的发展,尽管以 Hadoop 为代表的大数据生态圈已经非常繁荣,在技术上拥有出色的可扩展性,包含了丰富的各式数据处理引擎或框架,但相比数据仓库,其技术与产品的成熟度还相对欠缺,企业的大数据平台往往需要大量优秀的大数据人才进行开发和运维。

大数据技术的发展,把数据仓库带入了一个新的发展阶段,新一代的企业数据仓库越来越多的基于大数据技术构建,在向海量、实时、弹性、应用场景丰富等方向发展。在此过程中,涌现了一批优秀的国产大数据开源技术,比如 Apache Kylin, Apache Doris,RocketMQ 等,这在10多年前是不可想象的。衷心希望在大数据这条赛道上,我们可以再接再厉,实现底层技术上的超越,引领世界技术的潮流。