HTMLParser抽取Web网页正文信息

时间:2016-12-16 08:18:06
【文件属性】:

文件名称:HTMLParser抽取Web网页正文信息

文件大小:285KB

文件格式:DOC

更新时间:2016-12-16 08:18:06

提取网页数据

一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性


网友评论

  • 一般般,最基础的一些应用