文件名称:HTMLParser抽取Web网页正文信息
文件大小:285KB
文件格式:DOC
更新时间:2016-12-16 08:18:06
提取网页数据
一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性
文件名称:HTMLParser抽取Web网页正文信息
文件大小:285KB
文件格式:DOC
更新时间:2016-12-16 08:18:06
提取网页数据
一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性