【文件属性】:
文件名称:nanodataeng-capstone:Udacity纳米数据工程学位,Capstone项目
文件大小:9.88MB
文件格式:ZIP
更新时间:2021-02-18 15:55:23
airflow data-engineering redshift udacity-nanodegree capstone-project
电影评论情感分析
该项目遵循以下步骤:
步骤1:确定项目范围并收集数据
第2步:探索和评估数据
步骤3:定义数据模型
步骤4:运行ETL对数据建模
步骤5:完成项目编写
项目总结
本项目根据和提供的数据表达了艺术家评论情感和电影评论情感的
我们的数据管道的目标是向S3发布包含以下摘要信息的PDF报告:
十大电影
最差10部电影
复习情绪分布
最佳评论电影中的前10名演员
多年来的IMDb平均投票与TMDb情绪评论
我们的数据来源是:
完整的技术规格
有关项目对端到端的理解以及设置说明,请参考。
架构图
明星图式:电影评论情绪
明星模式:演员的电影评论感悟
数据字典
fact_films_review_sentiments
属性
类型
可空
价值
date_id
timestamp
not null
yyyy-mm-dd, dim_dates外键
film_id
int
【文件预览】:
nanodataeng-capstone-master
----images()
--------star-film-review-sentiment.png(170KB)
--------tmdb-logo.png(18KB)
--------dag-data_warehouse.png(285KB)
--------year_review_distro_fig.png(8KB)
--------dag-model_training.png(224KB)
--------header.png(177KB)
--------star-schema.png(208KB)
--------review_distro_fig.png(12KB)
--------report.png(293KB)
--------film_review_distro_fig.png(11KB)
--------robot-sentiment-analysis.png(597KB)
--------star-cast-film-review-sentiment.png(222KB)
----model()
--------movie-sentiment-classifier()
----DAG - Movie Review Sentiment Classifier Trainer.ipynb(17KB)
----dags()
--------data_warehouse_dag.py(17KB)
--------tensorflow_postgres_model_classification_operator.py(6KB)
--------s3_pdf_sentiment_report_operator.py(14KB)
--------check_no_missing_id_operator.py(3KB)
--------model_training_dag.py(2KB)
--------s3_download_and_upload_operator.py(3KB)
--------s3_unzip_and_upload_operator.py(3KB)
--------s3_to_redshift_operator.py(4KB)
--------tensorflow_review_classifier_trainer_operator.py(8KB)
----(template).ipynb(13KB)
----DAG - Movie Review Sentiment Data Warehouse.ipynb(68KB)
----Movie Review Sentiment Analysis.ipynb(72KB)
----.gitignore(2KB)
----README.md(10KB)