文件名称:Web 使用挖掘中的数据预处理技术:文献综述-研究论文
文件大小:930KB
文件格式:PDF
更新时间:2024-06-29 10:00:26
Data Preprocessing Web
随着 Web 的大规模增长,Web 上出现了大量的动态、分布式、异构、结构化、非结构化、半结构化和高维数据。 除了网站的内容和结构信息,服务器日志也被认为是一种有价值的信息来源。 Web 使用挖掘是一类从Web 服务器日志中分析用户导航行为的Web 挖掘。 它分为三个阶段:数据预处理、模式发现和模式评估。 其中,由于日志数据的庞大和嘈杂的性质,数据预处理被认为是Web使用挖掘过程中耗时且复杂的阶段。 本文对应用于 Web 服务器日志数据预处理的顺序技术进行了回顾和批判性分析,重点介绍了数据清理、用户识别和会话识别等子阶段。 此外,本文还包括对使用大数据技术(如 Hadoop MapReduce 和 Spark 框架)应用于服务器日志分析的技术的调查。 本文将有助于研究人员发现与 Web 使用挖掘过程的数据清理、用户识别和会话识别阶段相关的问题。