文件名称:改进的基于Web的频繁访问路径挖掘算法 (2009年)
文件大小:465KB
文件格式:PDF
更新时间:2024-06-02 10:05:59
工程技术 论文
对于连续频繁访问路径的挖掘如果采用常见的序列模式挖掘算法,挖掘效率是比较低的,而且只能得到频繁访问路径 。本文在研究访问路径性质的基础上给出了一种能从普通 Web日志中挖掘出连续频繁访问路径的算法 。设计了一种新颖的数据结构压缩存储空间及存储所需挖掘信息 。同时采用分区搜索的方式,为每个频繁节点构造一棵后缀树,通过遍历该后缀树挖掘出连续频繁访问路径 。采用这种方法进行挖掘,无需生成候选集,而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径 。