文件名称:一种自适应网页结构化信息提取方法
文件大小:510KB
文件格式:PDF
更新时间:2024-07-26 17:14:05
互联网网站
面向互联网信息采集挖掘应用,针对传统的网站信息整页采集方式存在采集信息混杂、无法直接使用,而人工结构化采集方式成本高、工作效率低的问题,研究提出了一种自适应网页结构化信息提取方法,实现了网页分类算法、基于子树的标题项、内容项的结构化信息提取算法。基于典型网站网页分类标注数据集进行分类模型的学习建模,可以自适应不同网站的差异,对网页进行分类,按照网页分类分别提取出网页中的列表项结构化信息、内容项结构化信息。该技术对提高网站信息结构化采集处理的自动化水平及处理效率具有重要作用。