文件名称:content-extraction:从原始Web HTML提取相关文本的算法的Python端口
文件大小:29KB
文件格式:ZIP
更新时间:2024-06-14 05:41:19
HTML
通过文本密度提取内容 这是一个小型的单文件库,用于将开放的Web数据(抓取HTML)清除到可以用于机器学习和自然语言处理任务的程度。 它通过本质上比较每个DOM节点的超链接文本与非超链接文本的比率(“文本密度”),然后基于该度量提取一个内聚树来做到这一点。 它基于北京理工大学的论文,在下面链接。 这很大程度上是作者原始C ++ / Qt代码的直接移植,并且已经放弃了针对语言和库的优化,以确保对原始算法的忠诚度。 与原始代码唯一的显着差异是,此实现还从最终输出中排除了style和script节点,无论它们的密度得分如何,方法都封装在适用的对象中,并且该算法返回文本的纯净版本,而不是纯文本。 DOM树-但这可以通过在extract_content()方法中删除几行来更改。 原始论文: : 原始代码: : 要安装(Python 3.4+): python setup.py ins
【文件预览】:
content-extraction-master
----.gitattributes(29B)
----cetd()
--------__init__.py(0B)
--------extractor.py(20KB)
----LICENSE(1KB)
----setup.py(318B)
----README.md(3KB)
----nyt_html_sample.html(89KB)
----.gitignore(3KB)