文件名称:基于行块分布函数的通用网页正文抽取算法
文件大小:1.87MB
文件格式:RAR
更新时间:2014-12-17 08:51:45
分布 网页正文抽取 算法
运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘。能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。
【文件预览】:
html
----126网易免费邮--你的专业电子邮局.html(11KB)
to_txt.exe
clear.exe