yelp-spark-airflow:使用PySpark和Airflow进行Yelp数据集情感分析和加权评论分数

时间:2021-04-05 13:15:40
【文件属性】:
文件名称:yelp-spark-airflow:使用PySpark和Airflow进行Yelp数据集情感分析和加权评论分数
文件大小:20KB
文件格式:ZIP
更新时间:2021-04-05 13:15:40
Python 目的 在Yelp数据集上运行spark作业,结果是: 预测用户评分的情感分析模型 根据评论数量调整评分的每个业务的加权评分即5星级的5星级餐厅与1k的4星级餐厅 设计:Spark作业从AWS EMR集群运行,并通过Apache Airflow进行编排。 这意味着Spark作业是端到端自动化的。 该项目基于此帖子中建议的体系结构。 先决条件 安装 安装 S3和EMR的AWS账户凭证 将Yelp移动到S3 创建文件dags/aws_credentials.json并更新登录名和密码 { " login " : " " , " password " : " " } 要运行Airflow作业,请转到 EMR学习课程 使用s3-dist-cp ,--src arg必须是目录。 如果只想移动特定文件,则可以添加一个额
【文件预览】:
yelp-spark-airflow-master
----config()
--------airflow.cfg(34KB)
----dags()
--------spark_submit.py(7KB)
--------scripts()
----docker-compose.yml(904B)
----.gitignore(41B)
----README.md(2KB)
----scripts()
--------entrypoint.sh(143B)

网友评论