文件名称:系统日志模板提取方法研究
文件大小:994KB
文件格式:PDF
更新时间:2024-05-26 06:19:01
系统日志 文本相似度 日志模板 FP-tree 标签识别树
提取日志模板是处理海量系统日志十分有效的方法.本文以Web系统日志为切入点,采用基于标签识别树的模板提取方法提取日志模板,并在其基础上,研究并完善了其日志预处理和模板表达式生成方法.针对于系统日志普遍存在的结构复杂问题,具体采用了基于文本相似度的预处理方法,实现了日志消息分类;采用模板最大匹配的方法,解决了由于日志格式不统一和切词导致的模板匹配度低的问题.最后,对本次日志模板提取方法的实验进行了评估,结果证明该方法的准确率达到96.4%,且模板匹配度大幅上升.