BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与价值的过程。BI系统质量至关重要,可以说没有质量保障的BI数据还不如没有BI数据。
而BI系统进行质量保障存在着巨大的挑战,主要有以下几点原因:
数据来源极其复杂,既有内部各个产品线的数据,又包含外部商业机构数据,主动采集数据等多种数据,数据源头质量保障挑战已经比较大;数据经过多层计算,过程复杂,保证每一步都符合预期的成本较高;数据口径要求严格,稍有偏差可能会导致实际业务意义偏差巨大。
鉴于之前出现的BI系统质量问题,我们分析了BI质量保证仅有开发同学自己进行时存在的漏洞,在平衡核心质量和投入成本之后将以下三点作为核心建设目标,以进行系统化的建设:
1、形成质量闭环体系,高效高质量的可持续的迭代;
2、实现P0级别报表全流程质量把控,达到报表输出0事故
3、形成数据质量平台,对数据全流程质量进行跟踪
在以往的商业智能BI项目中,离线数据量不大的时候,比如TB级别以下,传统的数据仓库ETL架构大部分场景都可以满足。数据量大的时候比如TB、PB级别或以上的数据处理,底层就可以采用Hadoop分布式系统框架,通过集群的方式进行高速运算和存储。最底层的HDFS分布式文件系统存储数据,MapReduce分布式计算框架对数据进行计算处理。
只不过随着实时数据、实时业务的需求越来越旺盛,所以实时 BI 报表的需求也越来越多。