Big-Data_hadoop_Yelp_Data_Analysis

时间:2024-05-26 07:25:40
【文件属性】:

文件名称:Big-Data_hadoop_Yelp_Data_Analysis

文件大小:685KB

文件格式:ZIP

更新时间:2024-05-26 07:25:40

Java

大数据--Hadoop--Yelp数据集 文件夹包含5个问题和pdf,其中包含有关五个问题和Yelp数据集的描述 数据集:Yelp数据集: ://www.yelp.com/academic_dataset 经过分析的yelp数据集可得出有关“用户,业务和评论”实体的有用统计信息。数据集存储在Hadoop HDFS中。针对以下概念设计Map Reduce Java程序: 问题1:计数和筛选数据:计算的实体数 问题2:过滤复杂数据:使用公司地址作为过滤列列出公司ID 问题3:计算出的每个企业ID的平均评分,并列出前10名 问题4:减少侧加入和工作链:每个企业的计算平均评分。 使用这些评级列出了排名前10位的企业及其相应数据。 问题5:Map Side Join:将所有业务实体加载到分布式缓存中。 使用地图侧连接列出了位于特定区域中的企业的用户ID和评论文本。


【文件预览】:
Big-Data_hadoop_Yelp_Data_Analysis-master
----Problem 2()
--------ReadMe.txt(589B)
--------Yelp Q2 Filter_Eclipse()
--------PaloAltoFilter.java(2KB)
--------paloaltofilter.jar(3KB)
--------Output(9KB)
----Problem 3()
--------ReadMe.txt(571B)
--------Top10.java(3KB)
--------ValueComparator.java(435B)
--------Output(270B)
--------top10.jar(6KB)
--------Yelp Q3 Top10_Eclipse()
----Yelp Data Set.txt(72B)
----README.md(989B)
----Problem 4()
--------ReadMe.txt(581B)
--------DetailsMapper.java(916B)
--------ValueComparator.java(437B)
--------Yelp Q4 Reduce Side Join_Eclipse()
--------Top10IdentityMapper.java(590B)
--------Top10Join_Reducer.java(823B)
--------Output(1KB)
--------Top10_Join.java(4KB)
----Details About Problems & Dataset.pdf(51KB)
----Problem 1()
--------ReadMe.txt(585B)
--------Output(41B)
--------Yelp Q1 Entity Count_Eclipse()
--------EntityCount.java(3KB)
--------entitycount.jar(4KB)
----Problem 5()
--------ReadMe.txt(604B)
--------Mapjoin_reducer.java(821B)
--------ValueComparator.java(437B)
--------Yelp Q5 MapSide Join_Eclipse()
--------Output(1.19MB)
--------BusinessFilterMapper.java(787B)
--------Mapjoin_mapper.java(2KB)
--------MapSideJoin.java(2KB)
--------BusinessFilterReducer.java(486B)

网友评论