一、Hadoop版本综述
Apache Hadoop的开源协议决定了任何人可以对其进行修改,并作为开源或者商业版发布/销售。
故而目前Hadoop发行版非常的多,有华为发行版(收费)、Intel发行版(收费)、Cloudera发行版CDH(免费)、Hortonworks版本HDP(免费),当然,这些发行版都是基于Apache Hadoop衍生出来的。
- Apache Hadoop
- Cloudera’s Distribution Including Apache Hadoop(CDH)
- Hortonworks Data Platform (HDP)
- MapR
- EMR
- …
其中,CDH版本是开发中常用的一个版本,它的优势明显,我们重点介绍下:
二、CDH简介:
- CDH全称:Cloudera\'s Distribution, including Apache Hadoop;
- CDH是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建;
- CDH开源,免费;
- CDH提供了Hadoop的核心: - 可扩展存储;- 分布式计算;
- CDH有基于Web的用户界面。
三、社区版与第三方CDH发行版比较
1、Apache社区版
优点:
- 完全开源免费
- 社区活跃
- 文档、资料详实
缺点:
- 版本管理比较混乱:各种版本层出不穷,很难选择;
- 兼容性低:选择生态组件时需要大量考虑兼容性问题、版本匹配问题、组件冲突问题、编译问题等。
- 集群的部署安装配置复杂:需要编写大量配置文件,分发到每台节点,容易出错,效率低。
- 安全性低;
- 集群运维复杂:需要安装第三方软件辅助。
2、第三方CDH发行版(HDP/MapR大致相同)
优点:
- 基于Apache协议,100%开源;
- 版本管理清晰:相比于Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境;
- 版本更新快:通常情况,比如CDH每个季度会有一个update,每一年会有一个release;
- 基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch;
- 支持Kerberos安全认证;
- 支持多种安装方式(Cloudera Manager方式);
- 文档清晰,并且提供了部署、安装、配置工具,大大提高了集群部署的效率;
- 运维简单:提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。
缺点:
- 涉及到厂商锁定的问题;
- 有的第三方版涉及收费的问题。
四、CDH安装和下载
1、安装方式
- Cloudera Manager
- Yum
- Rpm
- Tarball
2、下载地址
- CDH5.4: http://archive.cloudera.com/cdh5/
- Cloudera Manager5.4.3:http://www.cloudera.com/downloads/manager/5-4-3.html
总结:
1、cdh比原生的Apache发行版本包含了更多的补丁,用于增强稳定性,改善功能,有时候还增加功能特性;
2、cdh版本是由cloudera公司开源的,可以使用cm平台进行管理,比原生的Apache版本安装、维护更加省力;
3、第三方版本对技术人员的要求更高,必须对原生apache版本的各个组件理解清晰;
4、在cm管理平台中,cdh的parcel包不包含某些组件,需要自己下载对应的parcel包,比如说kafka;
5、对hdfs部署过程中,对磁盘进行lvm卷轴或者是磁盘目录统一,对于多台机器,否则之后维护成本高。
更多精彩,请关注我的"今日头条号":Java云笔记
随时随地,让你拥有最新,最便捷的掌上云服务