文件名称:yelp-spark-airflow:使用PySpark和Airflow进行Yelp数据集情感分析和加权评论分数
文件大小:20KB
文件格式:ZIP
更新时间:2021-04-05 13:15:40
Python 目的 在Yelp数据集上运行spark作业,结果是: 预测用户评分的情感分析模型 根据评论数量调整评分的每个业务的加权评分即5星级的5星级餐厅与1k的4星级餐厅 设计:Spark作业从AWS EMR集群运行,并通过Apache Airflow进行编排。 这意味着Spark作业是端到端自动化的。 该项目基于此帖子中建议的体系结构。 先决条件 安装 安装 S3和EMR的AWS账户凭证 将Yelp移动到S3 创建文件dags/aws_credentials.json并更新登录名和密码 { " login " : "
【文件预览】:
yelp-spark-airflow-master
----config()
--------airflow.cfg(34KB)
----dags()
--------spark_submit.py(7KB)
--------scripts()
----docker-compose.yml(904B)
----.gitignore(41B)
----README.md(2KB)
----scripts()
--------entrypoint.sh(143B)