论文研究-基于模板的Web信息自动提取方法.pdf

时间:2022-08-11 16:27:31
【文件属性】:
文件名称:论文研究-基于模板的Web信息自动提取方法.pdf
文件大小:496KB
文件格式:PDF
更新时间:2022-08-11 16:27:31
信息提取,模板化,自动识别,分隔标记,结构化 为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。

网友评论