文件名称:基于机器学习的网页正文提取方法
文件大小:170KB
文件格式:PDF
更新时间:2017-03-20 22:22:46
正文提取
先将网页转换为规范的 DOM 树 然后计算每行文本的文本密度 与标题相关度等值 并将其作为输入参数利用 BP 神经网络进行训练 进而形成抽取规则 最后通过实验验证该方法的可行性
文件名称:基于机器学习的网页正文提取方法
文件大小:170KB
文件格式:PDF
更新时间:2017-03-20 22:22:46
正文提取
先将网页转换为规范的 DOM 树 然后计算每行文本的文本密度 与标题相关度等值 并将其作为输入参数利用 BP 神经网络进行训练 进而形成抽取规则 最后通过实验验证该方法的可行性