论文研究-基于正文结构和长句提取的网页去重算法 .pdf

时间:2022-09-05 05:37:27
【文件属性】:

文件名称:论文研究-基于正文结构和长句提取的网页去重算法 .pdf

文件大小:237KB

文件格式:PDF

更新时间:2022-09-05 05:37:27

网页去重

基于正文结构和长句提取的网页去重算法,黄仁,冯胜,爬虫搜集的重复网页不仅浪费了存储和带宽资源,而且增加了用户的浏览负担。针对网页重复的特点和网页正文的结构特征,提出了一种


网友评论