hadoop发行商介绍:Cloudera

时间:2024-03-30 14:53:24

Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera现在国内很多公司也都选用他们的发行版本(CDH)

Cloudera由来自Facebook谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)2008年创建。

首先来看下Cloudera的技术框架:

 
hadoop发行商介绍:Cloudera
 

主要有几大主要的组件:

1Hbase:Hbase是一个分布式的,扩展性很强的存储,主要受G oogleBigtable的启发,可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。

2ImpalaImpalaCloudera在受到GoogleDremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query PlannerQuery CoordinatorQuery Exec Engine三部分组成),可以直接从HDFSHBase中用SELECTJOIN和统计函数查询数据,从而大大降低了延迟。Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。

 

3Sparkspark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以spark现在非常热门,包括腾讯,UC,淘宝都有团队在研究和应用。

 

相比HortonworksCloudera包装的开源软件要显得少一些,可以参考前面的文章《hadoop发行商介绍:Hortonworks,但是从目前业界的情况来看,cloudera坚持了自己的技术,普遍认为cloudera的发展潜力更大,包括最近intel放弃自己的发行版本,转而支持cloudera

HortonworksCloudera两家都支持的力度来看,Spark是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。

除了HortonworksCloudera两家主要的发型版提供商,Hadoop发型领域还有MapREMC等,各有特点。从大多数应用来说,选择 ClouderaHortonworks就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。


hadoop发行商介绍:Cloudera