文件名称:yelp-spark-airflow:使用PySpark和Airflow进行Yelp数据集情感分析和加权评论分数
文件大小:20KB
文件格式:ZIP
更新时间:2024-04-25 07:02:20
Python
目的
在Yelp数据集上运行spark作业,结果是:
预测用户评分的情感分析模型
根据评论数量调整评分的每个业务的加权评分即5星级的5星级餐厅与1k的4星级餐厅
设计:Spark作业从AWS EMR集群运行,并通过Apache Airflow进行编排。 这意味着Spark作业是端到端自动化的。
该项目基于此帖子中建议的体系结构。
先决条件
安装
安装
S3和EMR的AWS账户凭证
将Yelp移动到S3
创建文件dags/aws_credentials.json并更新登录名和密码
{
" login " : "
【文件预览】:
yelp-spark-airflow-master
----config()
--------airflow.cfg(34KB)
----dags()
--------spark_submit.py(7KB)
--------scripts()
----docker-compose.yml(904B)
----.gitignore(41B)
----README.md(2KB)
----scripts()
--------entrypoint.sh(143B)