论文研究-基于特征码的网页排重算法的设计与实现 .pdf

时间:2022-09-04 04:41:27
【文件属性】:

文件名称:论文研究-基于特征码的网页排重算法的设计与实现 .pdf

文件大小:178KB

文件格式:PDF

更新时间:2022-09-04 04:41:27

网页去重

基于特征码的网页排重算法的设计与实现,刘新生,厉锟,在大规模新闻抓取中,大量重复或者近似文章也频繁出现,这影响了抓取系统的性能,同时也降低了新闻抓取质量,所以有必要在系统中


网友评论