文件名称:Hadoop部署实践 论坛日志分析.docx
文件大小:738KB
文件格式:DOCX
更新时间:2022-12-20 17:02:03
hadoop hive mapreduce 日志分析
MapReduce处理数据、hive数据分析 需求描述: 1. access_2013_05_30.log、access_2013_05_31.log是2013年5月30日和31日两天的apache common日志文件。 数据格式说明: 每行记录有5部分组成: 访问ip 访问时间 访问资源 访问状态 访问流量 例如:27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 1127 2. 需求 通过对黑马技术论坛的apache common日志进行分析,计算论坛关键指标: (1) 每日浏览量PV:所有用户浏览页面的总和 (2) 每日注册用户数:包含“member.php?mod=register”子串的url个数 (3) 每日独立IP数:不同IP总和 (4) 每日跳出数:只浏览了一个页面便离开了网站的访问次数 (5) 每日跳出率:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比