【文件属性】:
文件名称:apache-spark-etl-pipeline-example:演示使用Apache Spark构建强大的ETL管道,同时利用开源通用集群计算的优势
文件大小:54.25MB
文件格式:ZIP
更新时间:2021-02-06 08:21:33
python postgres vagrant spark etl
Spark ETL
怎么跑
启动无业游民的虚拟机
vagrant up
在Vagrant VM中获取Bash Shell
vagrant ssh
设置配置脚本权限(根据执行方式,您可能不需要这样做)
sudo chmod +x /vagrant/config.sh
移至/ vagrant目录
cd /vagrant/config
执行配置
./config.sh
安装Pyspark
./install_pyspark.sh
移至src目录
cd /vagrant/src
执行Spark应用
spark-submit --driver-class-path /vagrant/