文件名称:WeblogChallenge:这是Paytm Labs的面试挑战。 请随意分叉。 拉取请求将被忽略
文件大小:51.34MB
文件格式:ZIP
更新时间:2024-06-03 19:24:16
挑战网志 这是Paytm Labs的面试挑战。 请随意分叉。 拉取请求将被忽略。 面临的挑战是使用下面的分布式工具对数据进行分析观察。 处理和分析目标: 通过IP对Web日志进行会话化。 Sessionize =在会话期间按访问者/ IP汇总所有页面点击。 确定平均会话时间 确定每个会话的唯一URL访问。 为澄清起见,每个会话中一次对唯一URL的点击计数一次。 查找参与度最高的用户,即会话时间最长的IP 面向机器学习工程师(MLE)候选人的其他问题: 预测下一分钟的预期负载(请求/秒) 预测给定IP的会话长度 预测给定IP的唯一URL访问次数 允许使用的工具(无特定顺序): Spark(任何语言,但更喜欢Scala或Java) 猪 MapReduce(仅适用于Hadoop 2.x) 联动 级联,级联或缩放 如果您需要Hadoop,我们建议使用HDP沙箱: : 或CDH
【文件预览】:
WeblogChallenge-master
----README.md(3KB)
----data()
--------2015_07_22_mktplace_shop_web_log_sample.log.gz(51.34MB)