Greenplum——大数据时代高性能的数据仓库与BI应用平台

时间:2024-04-16 09:07:01

一. Greenplum简介

大数据是个炙手可热的词,各行各业都在谈。一谈到大数据,好多人认为就是Hadoop。实际上Hadoop只是大数据若干处理方案中的一个。现在的SQL、NoSQL、NewSQL、Hadoop等等,都能在不同层面或不同应用上处理大数据的某些问题。而Greenplum数据库作为一个分布式大规模并行处理数据库(MPP),在大多数情况下,更适合做大数据的存储引擎、计算引擎和分析引擎。

Greenplum作为企业级数据库产品,可以说是世界上最先进的OLAP开源数据库之一。Greenplum是由数个独立的数据库服务组合成的逻辑数据库,简单的说就是一个与ORACLE、 DB2一样面向对象的关系型数据库集群,我们可以通过标准的SQL可以对GP中的数据进行访问存取。2015年10月,Pivotal宣布Greenplum正式开源。

Greenplum为大数据存储、计算、挖掘而设计,拥有丰富的特性:

第一,完善的标准支持:Greenplum完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。

第二,支持分布式事务,支持ACID。保证数据的强一致性。

第三,作为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的Greenplum集群都有很多案例。

第四,Greenplum有很多合作伙伴,有完善的生态系统,可以与很多企业级产品集成,譬如SAS、Cognos、Informatic、Tableau等;也可以很多种开源软件集成,譬如Pentaho、Talend 等。

二. Greenplum架构

数据库构架设计中主要有Shared Everthting、Shared Nothing、Shared Disk:

 

数据库架构类型

Shared Everthting:局限于单一服务器(通常是价格比较昂贵的SMP服务器),完全透明共享CPU、Memory和I/O,典型的代表SQL Server。并行处理能力是最差的,其扩展性和性能受到相应的限制。

Shared Disk各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle Rac, 它是数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好,类似于SMP(对称多处理)模式。这种架构需要通过一个狭窄的数据管道将所有I/O信息过滤到昂贵的共享磁盘子系统。但是当存储器接口达到饱和的时候,增加节点并不能获得更高的性能 。

Shared Nothing各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,类似于MPP(大规模并行处理)模式,它是把某个表从物理存储上被水平分割,并分配给多台服务器(或多个实例),每台服务器可以独立工作,各处理单元之间通过协议通信。并行处理和扩展能力更好,只需增加服务器数就可以增加处理能力和容量。典型代表DB2 DPF和Hadoop ,各节点相互独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转。

Greenplum是基于软件的海量数据并行操作的“完全不共享”的MPP架构,将实际的数据存储设备分成一个个区段服务器上的小存储单元,每个单元都有一个连接本地磁盘的专用独立的、高带宽通道。区段服务器可以通过完全并行的方式处理每个查询,同时使用所有磁盘连接,并按照查询计划的要求在各区段间实现高效数据流动。Greenplum基于这种架构可以帮助客户创建数据仓库(Greenplum从开始设计的时候就被定义成数据仓库),充分利用低成本的商用服务器、存储和联网设备,通过经济的方式升级到千万亿字节的系统,并且在处理OLAP、BI(商务智能)、数据分析和数据挖掘等任务时性能远远超过了通用数据库系统。

 

Greenplum架构

Greenplum的组件分成三个部分:Master Severs、Segment Severs和Master Severs与Segment Severs之间的高效互联技术Interconnect。其中Master和Segment本身就是独立的数据库Sever。

Master负责建立与客户端的连接和管理,进行SQL的解析并形成执行计划生成并拆分执行计划;把执行计划分配给Segment的节点,收集Segment的执行结果并返回给最终应用;Master不存储业务数据,只存储数据字典,不负责运算,因此不会成为系统性能的瓶颈。这也是Greenplum与传统MPP架构数据库的一个重要区别。

Segment负责业务数据的存储和存取,并根据得到执行计划,负责处理业务数据。也就是用户关系表的数据会打散分布到每个Segment节点。当进行数据访问时,首先所有Segment并行处理与自己有关的数据,如果需要Segment可以通过进行Innterconnect进行彼此的数据交互。Segment节点越多,数据就会打的越散,处理速度就越快。因此与Shared Everthting数据库集群不同,通过增加Segment节点服务器的数量,Greenplum的性能会成线性增长。

三. Greenplum与BI(大数据应用)

Greenplum的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。

Greenplum的数据库引擎层是基于著名的开源数据库Postgresql的,良好的兼容了Postgresql的功能 ,这使得Greenplum在支持BI等大数据分析与挖掘方面的应用时具备优秀的兼容性和丰富的拓展能力:

(1)Postgresql有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法支持,除对ANSI SQL完全支持外,还支持比如分析函数(SQL2003 OLAP window函数),还可以用多种语言来写存储过程,对于Madlib、R的支持也很好。

(2)Postgresql中的功能模块和接口基本上99%都可以在Greenplum上使用,例如odbc、jdbc、oledb、perldbi、python psycopg2等,所以Greenplum与第三方工具(ETL工具比如HaoheDI)、BI报表集成的时候非常容易。

(3)对于postgresql的contrib中的一些常用模块Greenplum提供了编译后的模块开箱即用,如oraface、postgis、pgcrypt等,对于其它模块,用户可以自行将contrib下的代码与Greenplum的include头文件编译后,将动态so库文件部署到所有节点就可进行测试使用了。