基于行块分布函数的通用网页正文抽取下载

【文件属性】：

文件名称：基于行块分布函数的通用网页正文抽取

文件大小：1.01MB

文件格式：PDF

更新时间：2020-12-14 04:14:15

正文抽取

对于 Web 信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的 HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。

立即下载

秒客网