动态网页的信息抽取方法下载

【文件属性】：

文件名称：动态网页的信息抽取方法

文件大小：3.79MB

文件格式：PDF

更新时间：2021-04-08 09:13:06

信息抽取

动态网页的信息抽取W曲信息抽取将W|eb中的数据抽取出来并表示为结构化的形式。动态网页是通过程序动态生成的页面。据统计，目前Web上的页面主要是以动态网页的形式存在。因此，研究动态网页的信息抽取方法，具有较大的实用价值。本文将动态网页分为记录级和页面级两类，主要工作包括：(1)针对记录级动态网页，提出基于相似记录项归纳(Similar Records Induction，s对)的信息抽取方法。该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树，并为抽取到的信息手工标注标签。(2)针对页面级动态网页，提出基于相似页面归纳(Similar Pages Induction,SPI)的信息抽取方法。该方法首先清洗样本网页集，然后通过树排列算法，归纳产生页面的包装器树，并选择模板字符串为相邻信息自动标注标签。(3) 针对记录级动态网页的标签自动获取问题，提出基于隐马尔科夫模型(Hidden Markov Model。HMM) 的记录项字段识别和抽取方法。该方法将记录项作为字段值的序列，并采用HM_／VI对字段值的标签进行分类标注。

立即下载

秒客网

动态网页的信息抽取方法

网友评论

相关文章