基于机器学习的网页正文提取方法

时间:2017-03-20 22:22:46
【文件属性】:

文件名称:基于机器学习的网页正文提取方法

文件大小:170KB

文件格式:PDF

更新时间:2017-03-20 22:22:46

正文提取

先将网页转换为规范的 DOM 树 然后计算每行文本的文本密度 与标题相关度等值 并将其作为输入参数利用 BP 神经网络进行训练 进而形成抽取规则 最后通过实验验证该方法的可行性


网友评论

  • 没下载成。。。。