gutenberg:古腾堡计划语料库的简单界面

时间:2024-05-24 04:34:46
【文件属性】:

文件名称:gutenberg:古腾堡计划语料库的简单界面

文件大小:10.14MB

文件格式:ZIP

更新时间:2024-05-24 04:34:46

python3 python2 gutenberg-ebooks gutenberg-metadata Python

古腾堡 概述 该程序包包含各种脚本,使使用的公共领域文本正文更加容易。 该软件包提供的功能包括: 从古腾堡计划中下载文本。 清洁文本:删除所有杂物,仅保留文本。 使有关文本的元数据易于访问。 该软件包已经过Python 2.7和3.5+的测试。 该包的HTTP接口也存在。 安装 该项目位于,因此我建议您使用自己喜欢的Python软件包管理器从那里安装所有内容。 pip install gutenberg 如果要从源代码安装或修改软件包,则需要克隆此存储库: git clone https://github.com/c-w/Gutenberg.git 现在,您可能应该安装软件包的依赖项,并通过运行测试来验证签出。 cd Gutenberg virtualenv --no-site-packages virtualenv source virtualenv/bin/ac


【文件预览】:
gutenberg-master
----gutenberg()
--------acquire()
--------__init__.py(97B)
--------query()
--------_domain_model()
--------cleanup()
--------_util()
----.dockerignore(85B)
----README.rst(8KB)
----.github()
--------workflows()
----LICENSE.txt(11KB)
----requirements-dev.pip(32B)
----setup.py(2KB)
----Dockerfile-py2(235B)
----.noserc(24B)
----tests()
--------test_query.py(3KB)
--------test_acquire.py(5KB)
--------test_metadata_cache.py(4KB)
--------_sample_metadata.py(5KB)
--------test_util.py(3KB)
--------_util.py(2KB)
--------__init__.py(35B)
--------_sample_text.py(1KB)
--------data()
--------test_domain_model.py(932B)
--------test_strip_headers.py(2KB)
----.gitignore(89B)
----.coveragerc(261B)
----Dockerfile-py3(315B)

网友评论