前言

　　Apache Zeppelin是一款基于web的notebook(类似于ipython的notebook)，支持交互式地数据分析，即一个Web笔记形式的交互式数据查询分析工具，可以在线用scala和SQL对数据进行查询分析并生成报表。原生就支持Spark、Scala、SQL 、shell 、markdown等。而且它是完全开源的，目前还处于Apache孵化阶段。其已经在各大公司均有采用，比如美团、微软等等。

　　Zeppelin的后台数据引擎可以是Spark，也可以通过实现更多的解释器来为Zeppelin添加数据引擎。在本地搭建一个Zeppelin 使得Spark更易用，同时可以很方便的将自己的工作成功展示给客户。

准备

sudo apt-get update    //更新Apt

安装JDK

sudo apt-get install openjdk-8-jre openjdk-8-jdk

安装Hadoop

安装Spark

安装Git

sudo apt-get install git

安装Maven

sudo apt-get install maven

安装Npm

sudo apt-get install npm　　//Npm home: /usr/share/npm

安装Phantomjs

下载"phantomjs-1.9.8-linux-x86_64.tar.bz2"
解压至:/usr/local/phantomjs

安装Apache Zeppelin

源码下载

https://github.com/apache/incubator-zeppelin

http://zeppelin.apache.org/download.html

解压安装

　　Apache Zeppelin官方提供了Source包和二进制包，我们可以根据需要下载相关的包进行安装。

通过下载zeppelin的binary包：http://ftp.meisei-u.ac.jp/mirror/apache/dist/incubator/zeppelin/0.5.6-incubating/zeppelin-0.5.6-incubating-bin-all.tgz，然后解压缩安装。
```
tar -xzvf zeppelin--incubating-bin-all.tgz
```
通过编译源码的方式来安装Apache Zeppelin，我这里从Zeppelin的git库里面下载最新的源码进行编译。
```
$ git clone https://github.com/apache/incubator-zeppelin.git //下载最新的->解压至：/usr/local/zeppelin
```

编译Apache Zeppelin

本地模式：mvn clean package -DskipTests
集群模式：mvn package -Pspark-2.0 -Dhadoop.version=2.7.1 -Phadoop-2.7 -DskipTests -X

在安装过程中可能会出现各种问题，但是一般都是网络问题导致，重新执行下编译命令即可。但如果编译出现oom，需增加如下命令:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

配置环境变量

ysp@YSP:~$ vim .bashrc

-openjdk-amd64
export SPARK_HOME=/usr/local/spark
export HADOOP_HOME=/usr/local/hadoop
export PHANTOMJS_HOME=/usr/local/phantomjs
export ZEPPELIN_HOME=/usr/local/zeppelin
export PATH=.:$PATH:/usr/local/hadoop/bin:/usr/local/phantomjs/bin:/usr/local/spark/bin:/usr/local/zeppelin/bin:/usr/lib/jvm/java--openjdk-amd64/bin;

ysp@YSP:~$ source .bashrc

集群模式编译

ysp@YSP:~$ cd /usr/local/zeppelin
ysp@YSP:/usr/local/zeppelin$ mvn package -Pspark- -Phadoop-2.7 -DskipTests -X

如果你需要使用到YARN，你必须在编译Zeppelin的时候指定-Pyarn选项。

配置

　　配置文件为环境变量文件(conf/zeppelin-env.sh)和Java属性文件(conf/zeppelin-site.xml)。根据自己的要求进行配置。

拷贝/usr/local/zeppelin/conf/zeppelin-env.sh.template和/usr/local/zeppelin/conf/zeppelin-site.xml.template至/usr/local/zeppelin/conf/zeppelin-env.sh与/usr/local/zeppelin/conf/zeppelin-site.xml。

编辑conf/zeppelin-env.sh

export JAVA_HOME=/usr/lib/jvm/java--openjdk-amd64
export SPARK_HOME=/usr/local/spark
export HADOOP_CONF_DIR=/usr/local/hadoop
export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.10:1.2.0"

启动

　　在zeppelin_home目录下执行如下命令：

ysp@YSP:/usr/local/zeppelin$ ./bin/zeppelin-daemon.sh start

Ubuntu下基于Saprk安装Zeppelin

　　其启动/停止命令： bin/zeppelin-daemon.sh start/stop。

　　启动之后，打开localhost:8080访问zepplin主页。

Ubuntu下基于Saprk安装Zeppelin

测试

配置Spark解释器

Ubuntu下基于Saprk安装Zeppelin

创建Note

Ubuntu下基于Saprk安装Zeppelin

Zeppelin入门使用

1.text

　　默认使用scala语言输出text内容：

println("Hello Yuan Siping!")

2.html

　　　　shell输出html:

%sh echo "%html <h2>Hello Zeppelin</h2>"

Ubuntu下基于Saprk安装Zeppelin

　　3.table

　　　　scala:

print(s"""%table name\tsize\nsun\t100\nmoon\t10""")

Ubuntu下基于Saprk安装Zeppelin

　　4.Tutorial with Local File

Data Refine:

下载bank数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank.zip ，将csv格式数据转成Bank对象RDD，并过滤表头列:

val bankText = sc.textFile("/usr/data/bank/bank-full.csv")

case class Bank(age:Integer, job:String, marital : String, education : String, balance : Integer)

val bank = bankText.map(s=>s.split()!="\"age\"").map(
    s=>Bank(s().toInt,
            s().replaceAll("\"", ""),
            s().replaceAll("\"", ""),
            s().replaceAll("\"", ""),
            s().replaceAll("\"", "").toInt
        )
)

bank.toDF().registerTempTable("bank")

Ubuntu下基于Saprk安装Zeppelin

Data Retrieval:

执行以下语句，可看到年龄的分布：

%sql )  group by age order by age

Ubuntu下基于Saprk安装Zeppelin

　　动态输入maxAge参数（默认是30岁），查看小于maxAge岁的年龄分布：

%sql ) } group by age order by age

Ubuntu下基于Saprk安装Zeppelin

　　根据婚姻状况选项，查看年龄分布状况：

%sql ) from bank where marital="${marital=single,single|divorced|married}" group by age order by age

Ubuntu下基于Saprk安装Zeppelin

秒客网

Ubuntu下基于Saprk安装Zeppelin

前言

准备

安装JDK

安装Hadoop

安装Spark

安装Git

安装Maven

安装Npm

安装Phantomjs

安装Apache Zeppelin

源码下载

解压安装

编译Apache Zeppelin

配置

启动

测试

配置Spark解释器

创建Note

Zeppelin入门使用

相关文章