Python-goose:用于文章提取的Python库

时间:2018-05-31 14:09:15
【文件属性】:

文件名称:Python-goose:用于文章提取的Python库

文件大小:61KB

文件格式:GZ

更新时间:2018-05-31 14:09:15

Python-goose python 正文提取

Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。


【文件预览】:
goose-extractor-1.0.25
----MANIFEST.in(83B)
----PKG-INFO(11KB)
----README.rst(8KB)
----goose()
--------cleaners.py(11KB)
--------video.py(1KB)
--------text.py(6KB)
--------parsers.py(7KB)
--------configuration.py(4KB)
--------resources()
--------__init__.py(3KB)
--------extractors()
--------article.py(5KB)
--------image.py(3KB)
--------outputformatters.py(5KB)
--------crawler.py(9KB)
--------utils()
--------network.py(2KB)
--------version.py(938B)
----goose_extractor.egg-info()
--------PKG-INFO(11KB)
--------requires.txt(46B)
--------not-zip-safe(1B)
--------SOURCES.txt(2KB)
--------top_level.txt(12B)
--------dependency_links.txt(1B)
----tests()
--------parsers.py(10KB)
--------configuration.py(1KB)
--------__init__.py(928B)
--------extractors()
--------article.py(1KB)
--------network.py(2KB)
----setup.cfg(59B)
----setup.py(2KB)

网友评论