content-extraction:从原始Web HTML提取相关文本的算法的Python端口下载

【文件属性】：

文件名称：content-extraction:从原始Web HTML提取相关文本的算法的Python端口

文件大小：29KB

文件格式：ZIP

更新时间：2024-06-14 05:41:19

HTML

通过文本密度提取内容这是一个小型的单文件库，用于将开放的Web数据（抓取HTML）清除到可以用于机器学习和自然语言处理任务的程度。它通过本质上比较每个DOM节点的超链接文本与非超链接文本的比率（“文本密度”），然后基于该度量提取一个内聚树来做到这一点。它基于北京理工大学的论文，在下面链接。这很大程度上是作者原始C ++ / Qt代码的直接移植，并且已经放弃了针对语言和库的优化，以确保对原始算法的忠诚度。与原始代码唯一的显着差异是，此实现还从最终输出中排除了style和script节点，无论它们的密度得分如何，方法都封装在适用的对象中，并且该算法返回文本的纯净版本，而不是纯文本。 DOM树-但这可以通过在extract_content()方法中删除几行来更改。原始论文： : 原始代码： : 要安装（Python 3.4+）： python setup.py ins

立即下载

【文件预览】：
content-extraction-master
----.gitattributes(29B)
----cetd()
--------__init__.py(0B)
--------extractor.py(20KB)
----LICENSE(1KB)
----setup.py(318B)
----README.md(3KB)
----nyt_html_sample.html(89KB)
----.gitignore(3KB)

秒客网

content-extraction:从原始Web HTML提取相关文本的算法的Python端口

网友评论

相关文章