SearchLogAnalyze:MapReduce编程-搜索引擎日志分析

时间:2021-06-14 18:42:40
【文件属性】:
文件名称:SearchLogAnalyze:MapReduce编程-搜索引擎日志分析
文件大小:926KB
文件格式:ZIP
更新时间:2021-06-14 18:42:40
Java 搜索引擎一般会有一个日志文件来记录所有用户的查询,当有一个用户使用搜索引擎进行搜索时,日志文件会记录这样一条记录:(搜索时间、搜索关键字、用户IP)。由于搜索引擎用户量较大,这个日志文件往往很大,一般可以存放在分布式文件系统中,例如HDFS中。分析这个日志文件,我们可以得到搜索引擎在近一段时间内的热点词(即搜索较多的词,例如一天内搜索次数最多的50个关键词,也即日志文件中出现次数最多的50个搜索关键字)。 请使用HDFS接口来自动生成这样一个日志文件,日志文件中每行的内容要求是如下格式: --------------------------------------------- 日期 时间 关键词 IP地址 --------------------------------------------- 2011-10-26 06:11:35 云计算 210
【文件预览】:
SearchLogAnalyze-master
----SearchLog.jar(17KB)
----README.md(1KB)
----report.pdf(977KB)
----SearchLogAnalyze.java(9KB)
----Log.java(3KB)

网友评论