文件名称:基于DOM的WEB主题信息抽取 (2008年)
文件大小:292KB
文件格式:PDF
更新时间:2024-06-03 19:18:20
自然科学 论文
随着Internet的发展及其广泛应用,WEB上的信息呈爆炸式增长趋势,但是WEB页面通常包含了很多与主题内容无关的信息,影响了对主题内容的快速获取以及对WEB信息的各种应用.本文提出了一种基于DOM的WEB页面主题抽取方法,快速准确的提取出WEB页面的主题内容,并对1000个网页进行了测试.实验结果表明该方法切实可行,可达到92.46%的准确率.