文件名称:nfldata:通过播放数据将数据集与NFL播放上的MapReduce组合
文件大小:15.11MB
文件格式:ZIP
更新时间:2024-06-12 15:36:51
Java
nfldata 这是MapReduce程序的两个系列。 其中一个是提取和规范化数据的一系列程序。 第二个是一个简单的程序,用于查看不完整的通行证。 可在上找到按播放数据集。 ETL系列 该程序采用逐个进行游戏数据集并将其与其他数据集(如逮捕,体育场和天气)合并。 通过运行setup.sh脚本进行设置,或手动运行以下步骤: 通过数据数据在播放中运行PlayByPlayDriver。 对来自PlayByPlayDriver的数据运行ArrestJoinDriver。 (在HDFS中的joindoutput下放置) 将Stadiums.csv放入HDFS中的名为Stadium的目录中。 将173328.csv放入HDFS的“天气”目录中。 在Hive中,运行playbyplay_tablecreate.hql。 在Hive中,运行playbyplay_join.hql。 在Hive中,运行