文件名称:论文研究-基于正文结构和长句提取的网页去重算法 .pdf
文件大小:237KB
文件格式:PDF
更新时间:2022-09-05 05:37:27
网页去重
基于正文结构和长句提取的网页去重算法,黄仁,冯胜,爬虫搜集的重复网页不仅浪费了存储和带宽资源,而且增加了用户的浏览负担。针对网页重复的特点和网页正文的结构特征,提出了一种
文件名称:论文研究-基于正文结构和长句提取的网页去重算法 .pdf
文件大小:237KB
文件格式:PDF
更新时间:2022-09-05 05:37:27
网页去重
基于正文结构和长句提取的网页去重算法,黄仁,冯胜,爬虫搜集的重复网页不仅浪费了存储和带宽资源,而且增加了用户的浏览负担。针对网页重复的特点和网页正文的结构特征,提出了一种