一、Apache Zeppelin
Apache Zeppelin主要提供web版的数据分析和可视化(类似于ipython notebook,jupyter 等可以直接在浏览器中写代码、笔记并共享),是一种开源的数据交互软件。
背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。
可实现你所需要的:
- 数据采集
- 数据发现
- 数据分析
- 数据可视化和协作
支持多种语言,默认是scala(背后是Spark shell),SparkSQL, Markdown 和 Shell。
二、Hue
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
CDH版中可以通过添加服务可以看到hue
通过xx.xx.xx.xx:8888访问Hue。第一次登陆hue的时候,需要设置一个管理员账户和密码。请慎重设置和保管你的Hue管理员账户和密码信息。
hue的交互页面: