Hadoop Apache版本与第三方CDH版本的区别

时间:2024-02-22 15:56:06

一、Hadoop版本综述

Apache Hadoop的开源协议决定了任何人可以对其进行修改,并作为开源或者商业版发布/销售。

故而目前Hadoop发行版非常的多,有华为发行版(收费)、Intel发行版(收费)、Cloudera发行版CDH(免费)、Hortonworks版本HDP(免费),当然,这些发行版都是基于Apache Hadoop衍生出来的。

  • Apache Hadoop
  • Cloudera’s Distribution Including Apache Hadoop(CDH)
  • Hortonworks Data Platform (HDP)
  • MapR
  • EMR

其中,CDH版本是开发中常用的一个版本,它的优势明显,我们重点介绍下:

二、CDH简介:

  •  CDH全称:Cloudera\'s Distribution, including Apache Hadoop;
  • CDH是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建;
  • CDH开源,免费;
  • CDH提供了Hadoop的核心: - 可扩展存储;- 分布式计算;
  • CDH有基于Web的用户界面。

三、社区版与第三方CDH发行版比较

1、Apache社区版

优点:

  • 完全开源免费
  • 社区活跃
  • 文档、资料详实

缺点:

  • 版本管理比较混乱:各种版本层出不穷,很难选择;
  • 兼容性低:选择生态组件时需要大量考虑兼容性问题、版本匹配问题、组件冲突问题、编译问题等。
  • 集群的部署安装配置复杂:需要编写大量配置文件,分发到每台节点,容易出错,效率低。
  • 安全性低;
  • 集群运维复杂:需要安装第三方软件辅助。

2、第三方CDH发行版(HDP/MapR大致相同)

优点:

  • 基于Apache协议,100%开源;
  •  版本管理清晰:相比于Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境;
  • 版本更新快:通常情况,比如CDH每个季度会有一个update,每一年会有一个release;
  • 基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch;
  • 支持Kerberos安全认证;
  • 支持多种安装方式(Cloudera Manager方式);
  • 文档清晰,并且提供了部署、安装、配置工具,大大提高了集群部署的效率;
  • 运维简单:提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:

  • 涉及到厂商锁定的问题;
  • 有的第三方版涉及收费的问题。

四、CDH安装和下载

1、安装方式

  • Cloudera Manager
  • Yum
  • Rpm
  • Tarball

2、下载地址

总结:

1、cdh比原生的Apache发行版本包含了更多的补丁,用于增强稳定性,改善功能,有时候还增加功能特性;

2、cdh版本是由cloudera公司开源的,可以使用cm平台进行管理,比原生的Apache版本安装、维护更加省力; 

3、第三方版本对技术人员的要求更高,必须对原生apache版本的各个组件理解清晰;

4、在cm管理平台中,cdh的parcel包不包含某些组件,需要自己下载对应的parcel包,比如说kafka;

5、对hdfs部署过程中,对磁盘进行lvm卷轴或者是磁盘目录统一,对于多台机器,否则之后维护成本高。

 

更多精彩,请关注我的"今日头条号":Java云笔记
随时随地,让你拥有最新,最便捷的掌上云服务