笼统的文字总结一下:
根据发展演进其实应该是下面顺序:
数据库 -> 数据仓库 -> 数据湖
|数据集市|
阶段一(应用系统独立数据库):
各个业务应用系统依赖数据库,起到收集数据的作用。
阶段二(数据挖掘收集数据):oltp和olap的比较
业务应用都是相对独立的单元主题,需要将各个应用系统的数据收集起来,再做聚合分析就可以让挖掘出有用的信息。
随之就产生了数据仓库的概念:数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合。
特点:它的数据是按主题而不是按照应用程序存储的,数据是跨应用程序的。比如说产品主题,销售主题等。
瓶颈:随着业务系统的数据越来越多,数据仓库的瓶颈就来了(存储和查询):
1.因为数据仓库是关系数据库,在存储方面只能纵向扩展。
2.数据量越大复杂查询效率越低,而且会越来越低。
数据集市是满足特定部门或者用户的需求,按照自定义的维度和需求计算的指标,生成的面向决策分析的多维立方体。它的数据来源可能是业务应用数据库,也可以是数据仓库。
阶段三:(解决数据仓库瓶颈,大数据概念引入):
Hadoop诞生,引出数据湖的概念,它的存储框架就是hadoop的HDFS
针对于数据仓库的瓶颈,解决方案:
1.首先数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的,而且是横向扩展。
2.计算采用基于hadoop的磁盘计算框架mapReduce或者采用spark基于内存分片的RDD弹性数据集。
特点:
存储方式:数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON 的日志),非结构化数据(电 子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所 有形式的数据。
数据仓库/数据湖(大数据)显著不同点:
1.数据引用方式不同:数据仓库的数据引用是etl的过程;数据湖数据引用是elt的过程。
2.存储方式:数据仓库是结构化数据;数据湖是自然格式,存储各种结构的数据。
3.数据访问方式:数据仓库是sql;数据湖是目录访问(外部编程)/类sql的程序。