文件名称:使用SparkSQL分析图书信息
文件大小:1.54MB
文件格式:ZIP
更新时间:2022-06-04 18:52:08
DataFrame spark sql python
(1)创建RDD (2)将RDD转为DataFrame (3)调用registerTempTable,注册为表,表名为:tb_book (4)使用使用sql语句查询前15条 (5)模糊查询书名包含“微积分”的书 (6)输出图书的前10行的name和price字段信息 (7)统计书名包含“微积分”的书的数量 (8)查询评分大于9的图书,,且只展示前10条 (9)计算所有书名包含“微积分”的评分平均值 (10)把书目按照评分从高到低进行排列,且只展示前15条 (11)把图书按照出版社进行分组,统计出不同出版社图书的总数 (12)将书名包含“微积分”的书记录保存到本地或HDFS上,且保存的格式为csv,文件名为:学号.csv (13)然后再从该csv文件加载,创建DataFrame,并查询和显示
【文件预览】:
test2.py
book.txt