hadoop发行商介绍：Cloudera

在Hadoop生态系统中，规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本（CDH)。

Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。

首先来看下Cloudera的技术框架：

主要有几大主要的组件：

1、Hbase:Hbase是一个分布式的，扩展性很强的存储，主要受G oogle的Bigtable的启发，可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。

2、Impala：Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。Impala现在还谈不上成熟，Cloudera坚持在Impala上投入，相信会有一个比较好的发展。

3、Spark：spark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势，所以spark现在非常热门，包括腾讯，UC，淘宝都有团队在研究和应用。

相比Hortonworks，Cloudera包装的开源软件要显得少一些，可以参考前面的文章《hadoop发行商介绍：Hortonworks》，但是从目前业界的情况来看，cloudera坚持了自己的技术，普遍认为cloudera的发展潜力更大，包括最近intel放弃自己的发行版本，转而支持cloudera。

从Hortonworks和Cloudera两家都支持的力度来看，Spark是未来的一个方向，尽快现在还存在或多或少的问题，内存替代硬盘的趋势基本得到了所有人的认同。

除了Hortonworks和Cloudera两家主要的发型版提供商，Hadoop发型领域还有MapR，EMC等，各有特点。从大多数应用来说，选择 Cloudera和Hortonworks就足够了，更具技术能力的公司，可以考虑在开源的基础上封装，完善开源以适合自己的应用。当能，要考虑及时将自己的成果开源出去哦，无数的经验证明，不开源出去的软件单靠单个公司去维护，很快就会没有生命力的。

hadoop发行商介绍：Cloudera

秒客网

hadoop发行商介绍：Cloudera

相关文章