韩亚飞_yue31313_韩梦飞沙 QQ:313134555
数据仓库分层的原因
编号 |
要点 |
描述 |
---|---|---|
1 | 提高效率 | 通过数据预处理提高效率,因为预处理,所以会存在冗余数据 |
2 | 应对变化 | 如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大 |
3 | 逻辑清晰 | 通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了 |
标准的数据仓库分层:
编号 |
分层 |
分层 |
描述 |
---|---|---|---|
1 | ods | 临时存储层 | 它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。 |
2 | pdw | 数据仓库层 | 它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据 |
3 | mid | 数据集市层 | 它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度讲,它是轻度汇总级别的数据,已经不存在明细的数据了。 |
4 | app | 应用层 | 数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。 |
ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)
也可分三层:
操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM)
数据缓存层,核心数据层,分析应用层。
数据仓库
数据仓库可以理解为中间集成化数据管理的一个平台
数据仓库的存储并不需要存储所有原始数据,因为比如你存储冗长的文本数据完全没必要,但需要存储细节数据,因为需求是多变的,而且数据仓库是导入数据必须经过整理和转换使它面向主题,因为前台数据库的数据是基于oltp操作组织优化的,这些可能不适合做分析,面向主题的组织形式才有利于分析。
多维数据模型
多维数据模型就是说可以多维度交叉查询和细分,应用一般都是基于联机分析处理(online analytical process OLAP)
元数据
元数据,也叫解释性数据,或者数据字典,会记录数据仓库中模型的定义,各层级之间的映射关系,监控数据仓库的数据状态和etl的任务运行状态。一般通过元数据资料库来统一存储和管理元数据。
技术:
数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上
消息系统:可以加入Kafka防止数据丢失
实时计算:实时计算使用SparkStreaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中
机器学习:使用了SparkMLlib提供的机器学习算法
多维分析OLAP:使用Kylin作为OLAP引擎
操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM) 对比
他们在数仓架构中差异点大致如下(以标准理论为准,实际设计中都会有越界和妥协现象)
操作型数据库(ODS),数据仓库(DW或EDW),数据集市(DM)是目前标准数仓结构的三个核心组件。
ODS和贴源层(缓冲区)。
贴源层的数据结构和数据内容是和源系统一模一样的,包括里面的垃圾数据,唯一不同的是,贴源层加了“时间戳”。
ODS层,则要清洗掉垃圾数据,更改不能入库的格式为数仓支持的格式或优化后的格式,如nchar改为char或Varchar。
贴源层数据存放一般为一周左右,几乎不会超过一个月;而ODS则永久存放。
数据集市(英语:Data Mart),是数据仓库(Data Warehouse)的一种特殊形式。
操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分
ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
OLTP也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
OLTP 和 OLAP 对比
OLTP |
OLAP |
|
用户 |
操作人员,低层管理人员 |
决策人员,高级管理人员 |
功能 |
日常操作处理 |
分析决策 |
DB 设计 |
面向应用 |
面向主题 |
数据 |
当前的, 最新的细节的, 二维的分立的 |
历史的, 聚集的, 多维的集成的, 统一的 |
存取 |
读/写数十条记录 |
读上百万条记录 |
工作单位 |
简单的事务 |
复杂的查询 |
用户数 |
上千个 |
上百万个 |
DB 大小 |
100MB-GB |
100GB-TB |
时间要求 |
具有实时性 |
对时间的要求不严格 |
主要应用 |
数据库 |
数据仓库 |
名词术语:
名词 |
解释 |
---|---|
DM | 数据集市。Data Mart |
DW | 数据仓库。Data Warehouse |
ODS | 操作型数据库。Operational Data Store |
EDW | 企业级数据仓库。enterprise data warehouse |
OLTP | 在线事务处理过程。On-Line Transaction Processing |
OLAP | 在线分析处理 online analytical process |
mid tier | 中间层 (Middle Tier)也称作“应用程序服务器层或应用服务层” |
pdw | 并行数据仓库。Parallel Data Warehouse |
mid | 中间层 |
dmi | 数据集市的接口。Data Mart Interface |
BI | 商业智能。business intelligence。 |
SOA | 面向服务架构。server oriented architecture。 |
MDM | 主数据管理。master data management。 |
DD | 退化维度。degenerate dimension |
FK | 外键。foreign key |
PK | 主键。primary key |
SCD | 渐变维度。slowly changing dimension。 |
3NF | 第三范式。third normal form。 |
ER | 实体关系。entity-relationship |
ETL | 提取、转换、加载。extract、transform、load。 |
CIO | 首席信息官。Chief Information Officer。 |
KPI | 关键绩效指标。key performance indicator。 |
GL | 总账。general ledger |
ERP | 企业资源规划。enterprise resource planning |
SAN | 存储区域网络。storage area network |
LDAP | 轻量目录访问协议。lightweight directory access protocol。 |
DBA | 数据库管理员。database administrator。 |
CRC | 循环冗余校验和。cyclic redundancy checksum。 |
XML | 可扩展标记语言。Extensible Markup Language |
ASCII | 美国信息交换标准代码。American Standard Code for Information Interchange。 |
EDM | 企业数据模型。enterprise data model。 |
FSK | 事实表代理键。fact table surrogate key。 |
RDBMS | 关系型数据库管理系统。relational database management System |
SQL | 结构化查询语言。Structured Query Language |
ATM | 自动取款机。自动柜员机。Automatic Teller Machine。 |
ROLAP | 关系型在线分析处理。relational online analytical process 。 |
ROM | 只读内存。Read Only Memory。 |
CD | 紧凑型光盘。Compact Disc |
IT | 互联网技术。Internet Technology |
DVD | 数字视频光盘。Digital Video Disc |
IT | 信息技术。Information Technology。 |
ICT | 信息和通信技术。Information and Communications Technology。 |
TCO | 总体拥有成本。total cost of ownership。 |
RAM | 随机访问内存。Random Access Memory。 |
CPU | *处理器。Central Processing Unit。 |
GPU | 图形处理器。Graphics Processing Unit |
ROI | 投资回报率。return on investment |
CIF | 企业信息工厂。corporate information factory。 |
DSS | 决策支持系统。decision support System |
DM | 维度建模。dimension modeling。 |
DDL | 数据定义语言。data definition language。 |
XP | 极限编程。extreme programming。 |
SCRUM | |
LWDS-MDM | 轻量级下游主数据管理。light weight downstream master data management。 |
NA | 不可用。not available。 |
NA | 不适用。not applicable。 |
suv | 运动型实用汽车。城郊实用汽车。sport utility vehicle,或suburban utility vehicle。 |
abc | 基于活动的成本核算。activity based costing。 |
UPC | 通用产品代码。universal product code。 |
MMA | 媒体市场区域。media market area。 |
SIC | 标准工业分类。 |
GIS | 地理信息系统。geographic information system。 |
Unicode | 统一码 |
ISP | 互联网服务提供商。Internet service provider。 |
LSA | 潜在语义分析。latent semantic analysis。 |
LSI | 潜在语义索引。latent semantic indexing。 |
CDC | 变更数据捕获。change data capture。 |
P&L | 损益 |
UDF | 用户自定义函数。 |
EII | 企业信息集成。Enterprise Information Integration |
CRM | 顾客关系系统。customer relationship management。 |
CDI | 顾客数据集成。customer data integration。 |
EAI | 企业应用集成。enterprise application integration。 |
ISBN | 国际标准书号(International Standard Book Number) |
EIP | 企业信息门户。 |
IAC | 跨企业应用协作。inter-enterprise application cooperotion。 |
VE | 虚拟企业 |
P&PB | 即插即用联结件。plug-and-play bondware。 |
WAWM |
广域工作流管理。wide-area workflow management。 |
RMOP | 组织的可重构建模参与者。restructure modeling of oraganization players。 |
RFID | 无限射频识别。radio frequency identification。 |
TB | terabyte |
PB | petabyte。其上还有EB,ZB,YB等单位 |
MPP | 大规模并行处理。massively parallel processing。 |
MB | MByte |
CQL | 持续查询语言。continuous query language。 |
CEP | 复杂事件处理。complex event processing。 |
UQL | 用户查询层面。user query level。 |
UPC | 通用产品编号。universal production code |
FAQ | 常见问题解答。frequently asked questions。 |
HDS | 异构数据库系统。heteroschedastic database system。 |
EIS | 执行层信息系统。executive information system。 |