基于文本及符号密度的网页正文提取方法.7z下载

【文件属性】：

文件名称：基于文本及符号密度的网页正文提取方法.7z

文件大小：1.54MB

文件格式：7Z

更新时间：2024-04-13 04:13:57

网页正文提取爬虫文本密度符号密度

【转发】【引用】【论文】大多数的网站的网页除了主要的内容，还包含导航栏，广告，版权等无关信息。这些额外的内容亦被称为噪声，通常与主题无关。由于这些噪声会妨碍搜索引擎对 Web 数据的挖掘性能，所以需要过滤噪声。在本文中，我们提出基于网页文本密度与符号密度对网页进行正文内容提取，这是一种快速，准确通用的网页提取算法，而且还可以保留原始结构。通过与现有的一些算法对比，可以体现该算法的精确度，同时该算法可以较好的支持大数据量网页正文提取操作。

立即下载

【文件预览】：
基于文本及符号密度的网页正文提取方法.pdf

秒客网

基于文本及符号密度的网页正文提取方法.7z

网友评论

相关文章