文件名称:基于行块分布函数的通用网页正文抽取
文件大小:1.01MB
文件格式:PDF
更新时间:2020-12-14 04:14:15
正文抽取
对于 Web 信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则 表达式可以准确的抽取某一固定格式的页面,但面对形形色色的 HTML,使用规 则处理难免捉襟见肘。 能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围 内通用,这是一个直接关系上层应用的难题。
文件名称:基于行块分布函数的通用网页正文抽取
文件大小:1.01MB
文件格式:PDF
更新时间:2020-12-14 04:14:15
正文抽取
对于 Web 信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则 表达式可以准确的抽取某一固定格式的页面,但面对形形色色的 HTML,使用规 则处理难免捉襟见肘。 能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围 内通用,这是一个直接关系上层应用的难题。