matlab聚类分析图片代码-BigDataProject:大数据项目

时间:2024-06-23 19:00:24
【文件属性】:

文件名称:matlab聚类分析图片代码-BigDataProject:大数据项目

文件大小:21.38MB

文件格式:ZIP

更新时间:2024-06-23 19:00:24

系统开源

matlab分析图片代码纽约市出租车交通数据分析 大数据分析(CS-GY-9223)课程项目 会员 周丁明 吴新宇 慕凡桑 dz1108 xw1386 ms9903 数据采集 数据源: 第一部分:数据清理 重要的!!!!!!: 如果您在NYU HPC使用dumbo集群,请将整个目录放在/scratch/your-netid/目录下,因为数据文件超出了/home/your-netid/下的存储限制你可以使用cd /scratch/your-netid/来做到这一点 下载原始数据 ./download_raw_data.sh 运行数据清理过程 ./data_clean.sh 在这个过程中,它会创建目录 ./Data 和 ./Datacleaned 分别存放原始数据和清洗后的数据文件这些数据文件存储在本地,而不是在 HDFS 中 更多数据清洗细节,参见DataInfo.md 第二部分:数据分析 将数据文件推送到 HDFS hfs -put Datacleaned/. 这可能需要一点时间推入hdfs后,可以使用hfs -ls Datacleaned查看加载的数据文件我们使用hadoop作业的序


【文件预览】:
BigDataProject-master
----ProgressRecord.md(918B)
----data_clean.sh(44B)
----PickupLocationMap()
--------LGA.jpg(157KB)
--------Manh.jpg(329KB)
--------LowerManh.jpg(577KB)
--------JFK.jpg(165KB)
--------NYC.jpg(330KB)
----raw_data_urls.txt(4KB)
----DataInfo.md(4KB)
----KVpairInfo.md(2KB)
----MatlabCode()
--------draw.out(91.47MB)
--------draw.m(765B)
----download_raw_data.sh(67B)
----.gitignore(13B)
----README.md(3KB)
----Code()
--------map3.py(4KB)
--------map.sh(77B)
--------reduce2.py(798B)
--------reduce2.sh(282B)
--------map.py(6KB)
--------map2.py(47B)
--------map3.sh(279B)
--------Dataclean.py(5KB)
--------reduce3.py(1KB)
--------map2.sh(279B)
--------reduce3.sh(281B)
--------reduce.sh(280B)
--------reduce.py(411B)

网友评论