boilerpipepy:从 HTML 页面中删除样板和全文提取

时间:2024-07-07 03:29:05
【文件属性】:

文件名称:boilerpipepy:从 HTML 页面中删除样板和全文提取

文件大小:658KB

文件格式:ZIP

更新时间:2024-07-07 03:29:05

Python

锅炉管Py 从 HTML 页面中删除样板和全文提取 概括 样板库提供了算法来检测和删除网页主要文本内容周围多余的“混乱”(样板、模板)。 该项目是 Christian Kohlschütter 的 Java 库的原生 python 端口 算法 该库使用的算法基于(并扩展)了 Christian Kohlschütter 等人的论文“ ”的一些概念。 组件 一种 HTML 解析器,可将 HTML 转换为支持文本“块”的内部纯文本文档模型。 Python 版本使用快速解析器 几个过滤器组件分析并标记这些文本块 由一个或多个过滤器组成的提取器。 这种“管道”获取解析的文档对象并从中提取主要文本内容python版本atm中的一个提取器 一个 HTML 荧光笔,用于在输入页面的副本中直观地检查提取的主要内容。 不支持自动取款机 如何使用 以 url 作为参数简单运行 ./url2article.


【文件预览】:
boilerpipepy-master
----url2article.py(2KB)
----README.md(2KB)
----docs()
--------edition.cnn.com-20150318europenatorussiaaircraftinterceptedindexhtml.txt(3KB)
--------wsdm187-kohlschuetter.pdf(674KB)
--------roem.ru-19032015188812yandexmoneymarketchina.txt(9KB)
--------www.gazeta.ru-business201503186604309shtml.txt(15KB)
----boilerpipe()
--------sax()
--------filters()
--------__init__.py(0B)
--------document()
--------util()
--------extractors()
----.gitignore(791B)

网友评论