不多说,直接上干货!
前期博客
Zeppelin的入门使用系列之创建新的Notebook(一)
接下来,我将以ml-100k数据集,示范如何使用Spark SQL进行数据分析与数据可视化
因为
[hadoop@master zeppelin]$ pwd
/home/hadoop/data/zeppelin
[hadoop@master zeppelin]$ ll
total 4812
-rw-rw-r-- 1 hadoop hadoop 4924029 Sep 2 11:00 ml-100k.zip
[hadoop@master zeppelin]$ unzip ml-100k.zip
Archive: ml-100k.zip
creating: ml-100k/
inflating: ml-100k/allbut.pl
inflating: ml-100k/mku.sh
inflating: ml-100k/README
inflating: ml-100k/u.data
inflating: ml-100k/u.genre
inflating: ml-100k/u.info
inflating: ml-100k/u.item
inflating: ml-100k/u.occupation
inflating: ml-100k/u.user
inflating: ml-100k/u1.base
inflating: ml-100k/u1.test
inflating: ml-100k/u2.base
inflating: ml-100k/u2.test
inflating: ml-100k/u3.base
inflating: ml-100k/u3.test
inflating: ml-100k/u4.base
inflating: ml-100k/u4.test
inflating: ml-100k/u5.base
inflating: ml-100k/u5.test
inflating: ml-100k/ua.base
inflating: ml-100k/ua.test
inflating: ml-100k/ub.base
inflating: ml-100k/ub.test
[hadoop@master zeppelin]$ pwd
/home/hadoop/data/zeppelin
[hadoop@master zeppelin]$ ll
total 4816
drwxr-x--- 2 hadoop hadoop 4096 Jan 30 2016 ml-100k
-rw-rw-r-- 1 hadoop hadoop 4924029 Sep 2 11:00 ml-100k.zip
[hadoop@master zeppelin]$ rm ml-100k.zip
[hadoop@master zeppelin]$
得到
列出ml-100k文件列表
然后,在ml-100k Notebook新的段落中输入命令,如下
%sh
ls -l /home/hadoop/data/zeppelin/ml-100k
Zeppelin支持shell命令,就好像在终端输入命令一样。要输入shell命令,先输入%sh。
按Enter键后再输入命令。%sh主要功能是告诉Zeppelin的解释器(Interpreter),后续要输入的是shell命令。
也许,有些博友,会出现如下的错误
查看u.user
%sh
head /home/hadoop/data/zeppelin/ml-100k/u.user
运行后会显示u.user数据。字段是序号、年龄、职业、邮政编码。
也有博友可能,会出现这个问题