文件名称:浅谈数据仓库和大数据.pdf
文件大小:125KB
文件格式:PDF
更新时间:2022-12-24 15:57:14
文档资料
浅谈数据仓库和⼤数据 浅谈数据仓库和⼤数据 前⾔ 前⾔ 数据仓库是今年来适应利⽤数据⽀持决策分析的强烈需求⽽发展起来的数据库应⽤技术,诚然,数据仓库以数据库为基础,但是他在需求、 客户、体系结构与运⾏机制等⽅⾯与数据库存在重⼤的不同,Kimball说:"我们花了⼆⼗年的时间往数据库中加⼊数据,现在该是拿出来使⽤ 的时候了。" ---摘⾃数据仓库⼯具箱:维度建模(第⼆版) 1.数据仓库理解 数据仓库理解 根据笔者⾃⼰的理解,数据仓库是⼀个抽象的概念,⽽实现的载体则是我们常见的各种数据库表。⽐如传统⾏业中⽤到的Oracle、 Teradata(简称TD)、GreenPlum(简称GP),互联⽹⾏业中⽤到的Hive、Spark。它的⼀个主要应⽤点的体现就是我们企业中建设的数据平台 2.数据平台 数据平台&数据仓库的组成 数据仓库的组成 先宽泛的讲述下数据平台和数据仓库的组成 数据平台可划分为如下⼦平台:数据同步平台、数据仓库、调度平台、元数据管理平台、即席查询平台、数据可视化平台、数据质量检测系 统 数据仓库由于是⼀个抽象的概念所以可以简单的理解为不同粒度的数据层,⽐如:数据缓冲层(存放当⽇增量数据)、数据明细层(存放最全的 明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应的主题)、数据集市层(⼀般就是⼀些宽表,包含多维度和指 标,⽅便⽤来做多维分析)、数据应⽤层(主要是开放给业务侧使⽤,多存放粗粒度的数据报表) 每个公司对每层的命名不⼀样,所以就不⽤什么ods,dw等来标识各个层级。 3.数仓和⼤数据的关系 数仓和⼤数据的关系 在写对数仓的理解的时候其实已经点出了数仓和⼤数据的关系,现在讲⼀下我个⼈理解的数仓演变历史以及为什么要⽤⼤数据来实现数仓。 3.1 数仓的过去 数仓的过去 数据仓库在很早的时候就被数据仓库之⽗Inmon 提出来了,按我的理解,很早的时候主要是对⾃⼰企业内部业务数据的⼀个分析决策,⽤⼀ 些传统的关系型数据库为载体,加上Kettle、Informatica、DataStage等ETL⼯具以及Biee、smartBi等报表⼯具来⽀撑企业⾃⼰的数据仓库 建设。其服务⽬标是部分企业⾼管、市场⼈员、运营⼈员等。 3.2 数仓的现在 数仓的现在 数据仓库在现在的应⽤已经远⾮以前的应⽤范围,其区别主要体现在⼀下⼏点: 1.数据源多样化 以前的数据源可能多数是来⾃企业的交易数据,但是现在则会由以下来源组成,⽐如:交易数据、⾏为数据、竟对数据、CRM、 财务数 据等 2.数据量暴涨 由于以前数据来源单⼀,数据量相⽐较现在增长不会那么快,多数的中⼩型企业使⽤⼀个⾼配的⼩机+关系型数据库即可满⾜数仓的计算 资源需求。但是现在由于数据源的多样化,导致数据量暴涨,单机的计算已经满⾜不了现有资源,但是MPP架构的数据库⼜太贵(⽐如TD), ⽽且也⽆法满⾜企业处理⾏为⽇志数据的需求。这个时候⼤数据技术应运⽽⽣,以hadoop+hive的技术处理开始占据主流。尤其是互联⽹⾏ 业的迅速发展,对其有⼀定的带动性。 3.服务对象的不同 个⼈说的以前偏向于传统⾏业,他们的服务对象偏向于⾼管、运营、财务等职能⼈员。⽽现在则会有各种各样的服务对象,⽐如:⾼管、 运营、财务等职能⼈员关注的报表必不可少,除此之外还有产品、运营等⼈关注的竟对分析以及内部风控,反欺诈等线上系统以及推荐等系 统模块的接⼝调⽤ 3.3 数仓的未来 数仓的未来 ⽬前在国外已经有⼈提出了Data Lake和Data Vault的概念。让我们拭⽬以待是否可以在国内普及应⽤~ 总结 总结 之所以出现hadoop、spark等⼤数据处理技术,数据多样化以及对数据时效性越来越⾼占主要因素,成本也是其中的⼀个因素,但是个⼈认 为占⽐很⼩,因为区别仅仅在于到底是把钱花在了机器和系统上还是花在了⼈⼒上~ 下⾯简单的对传统⾏业以及互联⽹⾏业建设数据仓库的时候⽤到的⼀些⼯具做些总结 1.传统⾏业 数据库:Oracle、DB2、TD(MPP结构,列式存储)、GP(MPP结构,列式存储)、SybaseIQ(MPP结构,列式存储)、MySql Inforbright、 MsSql、等 ETL⼯具:Informatica、DataStage、Kettle、Automation(调度平台)、SSIS、企业内部调度⼯具等 可视化⼯具:Biee、tableau、Congons、Power BI等 2.互联⽹⾏业 离线仓库架构:Sqoop+hadoop+hive/spark+mysql/hbase+echarts/tableau/highchars 实时架构:flume+kafka+storm/spark streaming+hbase/redis+echarts/tableau/highc