数据仓库、数据库、数仓结构(模型)、十大主题、数据平台
1.数据仓库是从底层数据收集、ETL、数据存储、数据整理存储等的一套流程。
2.数据库我理解是数据仓库的一部分,我理解它是数据集市的组成部分,多个数据库组成一个数据库,多为关系型数据库。
3.因为数据仓库是个大工程,在建之前要想好按照什么架构来组织数据,这就分为了星型结构、雪花结构、星座模型等。
4.除了从架构上来划分,不同行业的业务需求不同,需要记录的字段不同,也就要针对不同行业分别设置一套存储的字段,
十大主题是针对金融行业而言经常提的,比如有:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。
5.数据仓库的架构和数据仓库的主题是对数据仓库描述的两个维度。
数据仓库的定义:
*数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定
的主题集成起来提供决策支持和联机分析应用的结构化数据环境。
数据仓库VS数据库:
- 数据库是面向事务的设计,数据仓库是面向主题设计的
- 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据
- 数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计
- 联机事务处理OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。代表的是mysql
- 联机分析处理OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
常规的数据仓库架构:
数据仓库分层:原始层、操作层/ODS层/贴源层、明细层、汇总层、公共维度层、数据集市层。
最后,还有一个数据平台的概念。数据平台可以理解为数据仓库的载体,具体我也不太了解,做个比喻好了,数据可以理解为图书,
数仓可以理解为一堆的书或书的合集或图书馆,而数据平台可以理解为图书馆的图书管理系统,使得对图书馆的使用更加合理、成体系。