文件名称:Insight_project_2018b
文件大小:4.57MB
文件格式:ZIP
更新时间:2024-06-05 11:03:30
XSLT
维基卫士: “为您捕获所有异常” Insight 2018数据工程项目 项目总结: 此数据管道的设计和实现是为了实时检测流Wikipedia编辑日志中的用户异常。 项目介绍: 对现有主题的更改和编辑非常普遍,而且非常常见,特别是在喜欢参与更多工作的核心用户群体中。 该项目旨在为Wikipedia提供一种分析工具,以吸收核心用户的行为并为提交的修订建议同行评审候选人。 用例: 监视服务器收到的编辑提交: 监视总提交趋势,以识别所有服务器上的意外使用情况 异常用户编辑检测: 确定在短时间内提交过多修改的用户 从数据库中提取该用户的最近活动以显示 数据管道: 此异常检测管道有两个分支,分别用于流处理和批处理: 对于蒸制部分: Kafka提取Wikipedia的流输入数据,并将其发送到Flink进行处理。 Flink在定义的时间窗口内汇总来自同一用户的提交的编辑。 Flink将