文件名称:基于特征码的网页去重算法研究
文件大小:196KB
文件格式:PDF
更新时间:2015-04-26 06:41:10
数据挖掘;搜索引擎;网页去重
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标, 分析了搜索引擎工作原理, 讨论了现有的去重算法。给出了一种基于特征码的网页去重算法, 并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率, 达到了对算法的预期。
文件名称:基于特征码的网页去重算法研究
文件大小:196KB
文件格式:PDF
更新时间:2015-04-26 06:41:10
数据挖掘;搜索引擎;网页去重
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标, 分析了搜索引擎工作原理, 讨论了现有的去重算法。给出了一种基于特征码的网页去重算法, 并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率, 达到了对算法的预期。