gzipstream:gzipstream允许Python处理来自流媒体源的多部分gzip文件-python source file

时间:2024-04-14 01:35:58
【文件属性】:

文件名称:gzipstream:gzipstream允许Python处理来自流媒体源的多部分gzip文件-python source file

文件大小:9KB

文件格式:ZIP

更新时间:2024-04-14 01:35:58

系统开源

gzipstream gzipstream允许Python处理来自流式源的多部分gzip文件。 该库最初旨在与Python 一起使用,以处理和其他Web存档数据。 安装 如果您使用的是pip,只需运行命令pip install -e git+https://github.com/commoncrawl/gzipstream.git#egg=gzipstream 。 如果需要,您还可以使用python setup.py install 。 用法 作为用法的示例, examples/streaming_commoncrawl_from_s3.py显示了如何使用gzipstream增量处理gzip压缩的Web存档(WARC)文件。 该文件的大小几乎为1 GB,是从2014-15 Common Crawl数据集中随机选择的,并托管在Amazon S3上。 如果没有gzipstream ,则只能通


【文件预览】:
gzipstream-master
----setup.py(479B)
----.gitignore(544B)
----LICENSE(1KB)
----examples()
--------streaming_commoncrawl_from_s3.py(1KB)
----README.md(1KB)
----gzipstream()
--------gzipstreamfile.py(2KB)
--------__init__.py(43B)
--------tests()
----README(9B)
----MANIFEST(180B)

网友评论