基于机器学习的网页正文提取方法

时间：2017-03-20 22:22:46

【文件属性】：

文件名称：基于机器学习的网页正文提取方法

文件大小：170KB

文件格式：PDF

更新时间：2017-03-20 22:22:46

正文提取

先将网页转换为规范的 DOM 树然后计算每行文本的文本密度与标题相关度等值并将其作为输入参数利用 BP 神经网络进行训练进而形成抽取规则最后通过实验验证该方法的可行性

立即下载

网友评论

没下载成。。。。

相关文章

