文件名称:大数据BI框架知识点备注.pdf
文件大小:96KB
文件格式:PDF
更新时间:2022-12-24 11:38:52
文档资料
⼤数据BI框架知识点备注 相关资源: 相关资源: 将这段时间的⼀些基于⼤数据⽅案的BI知识点暂时做些规整,可能还存在较多问题,后续逐步完善修改。 数据模型: 1、星型模型和雪花模型,同样是将业务表拆分成事实表和纬度表;例如⼀个员⼯数据表,可以拆分为员⼯事实表和职位维度表、时间维度表等; 上⾯这个例⼦实时上不恰 当,事实表更多的应该是记录⼀类事务,⽐如客户订单、操作记录等。 2、星型模型与雪花模型的区别在于,例如时间维度表,前者设计为年、⽉、⽇为⼀条记录,后者是年、⽉、⽇分别为三张表,再次⽤外键关联; 3、我们可以在维度表中添加额外信息诸如分类,⽐如产品维度表有产品A、A1、A2、B1,我们可以在这个表⾥增加⼀个产品种类的字段; 4、聚合表,为了防⽌拆分成数据、维度表后简单查询也存在过多JOIN,⽽创建的中间表,本质上就是利⽤空间换时间;下述中导⼊hbase 中⽀持查询的就是这种聚合表; 数据采集: 1、可采⽤爬⾍的形式采集⽹络数据; 2、可采⽤flume⼯具采集远程服务端的⽇志数据; 3、可采⽤sqoop采集关系型数据库数据; 4、也可以⾃⼰写代理程序,利⽤消息中间件采集定制化数据; 5、数据采集后在当前⽅案中都保存在hdfs中; 6、传统的BI项⽬中通常采⽤ESB,⽐如国产的东⽅通或者开源的mule等; 数据仓库建模: 1、此处通常采⽤hive进⾏数据仓库的建模,即⽤hive的hsql语句创建事实表、维度表等; 2、⼀个⽐较重要的⼯作是利⽤hive进⾏ETL,例如缺字段、归⼀化(⽐如8000和8K、杭州和杭州市、惠普和HP等)、异常值(如⾦额为负数)等;在数据仓库的构建过 程中,ETL的⼯作很可能过半; 3、hive的底层基础还是mapreduce,我们可以认为基于这个分布式的计算框架来进⾏并⾏化的ETL任务;这⾥和kettle中创建ETL的job应该是类似的; 4、hive的任务可以由crontab定时调度; 查询的优化 1、由于hive的实时性⽐较差,因此我们可以将数据从hive中同步到hbase,在hbase中提供对外查询的接⼝; 数据分析 1、BI的核⼼部分,即相关业务的分析SQL还是在hive下进⾏的; 2、此处我们可以采⽤spark对数据分析进⾏优化,可以理解为⽤升级版(主要是更多利⽤内存)的mapreduce完成数据分析任务; 3、hive可以采⽤R语⾔、JAVA语⾔等编程扩展;