文件名称:nyc-taxi-analysis:分析200 GB的NYC出租车数据集
文件大小:1.68MB
文件格式:ZIP
更新时间:2024-02-25 01:21:26
jupyter-notebook pyspark dask datashader nyc-taxi-dataset
如何使用AWS EC2 Hadoop集群处理200 GB数据 存储200 GB的NYC出租车数据集并部署Cloudera Hadoop集群以对其进行可视化。 使用Python Datashader绘制和可视化Hadoop大型数据集 没有Datashader的可视化 工作流程概述 使用数据着色器 最终可视化
【文件预览】:
nyc-taxi-analysis-master
----greenTaxi_visualization.ipynb(1.27MB)
----pictures()
--------nyc-how-log.png(92KB)
--------taxi-overview.png(148KB)
--------nyc-matplotlib.png(59KB)
--------green_dropoff_plot_hd.png(448KB)
----createTableYellowTaxi_2016-07_2016-12.q(1018B)
----countTotalRecords.q(309B)
----createTableYellowTaxi_2015_2016-06.q(1KB)
----README.md(2KB)
----createTableYellowTaxi_2009_2014.q(918B)
----downloadDatasetsWithRequest.py(2KB)
----downloadDatasetsWithWget.sh(179B)
----createTableGreenTaxi.q(957B)