【文件属性】:
文件名称:matlab聚类分析图片代码-BigDataProject:大数据项目
文件大小:21.38MB
文件格式:ZIP
更新时间:2021-06-04 01:13:44
系统开源
matlab分析图片代码纽约市出租车交通数据分析
大数据分析(CS-GY-9223)课程项目
会员
周丁明
吴新宇
慕凡桑
dz1108
xw1386
ms9903
数据采集
数据源:
第一部分:数据清理
重要的!!!!!!:
如果您在NYU
HPC使用dumbo集群,请将整个目录放在/scratch/your-netid/目录下,因为数据文件超出了/home/your-netid/下的存储限制你可以使用cd
/scratch/your-netid/来做到这一点
下载原始数据
./download_raw_data.sh
运行数据清理过程
./data_clean.sh
在这个过程中,它会创建目录
./Data
和
./Datacleaned
分别存放原始数据和清洗后的数据文件这些数据文件存储在本地,而不是在
HDFS
中
更多数据清洗细节,参见DataInfo.md
第二部分:数据分析
将数据文件推送到
HDFS
hfs
-put
Datacleaned/.
这可能需要一点时间推入hdfs后,可以使用hfs
-ls
Datacleaned查看加载的数据文件我们使用hadoop作业的序
【文件预览】:
BigDataProject-master
----ProgressRecord.md(918B)
----data_clean.sh(44B)
----PickupLocationMap()
--------LGA.jpg(157KB)
--------Manh.jpg(329KB)
--------LowerManh.jpg(577KB)
--------JFK.jpg(165KB)
--------NYC.jpg(330KB)
----raw_data_urls.txt(4KB)
----DataInfo.md(4KB)
----KVpairInfo.md(2KB)
----MatlabCode()
--------draw.out(91.47MB)
--------draw.m(765B)
----download_raw_data.sh(67B)
----.gitignore(13B)
----README.md(3KB)
----Code()
--------map3.py(4KB)
--------map.sh(77B)
--------reduce2.py(798B)
--------reduce2.sh(282B)
--------map.py(6KB)
--------map2.py(47B)
--------map3.sh(279B)
--------Dataclean.py(5KB)
--------reduce3.py(1KB)
--------map2.sh(279B)
--------reduce3.sh(281B)
--------reduce.sh(280B)
--------reduce.py(411B)