CommonCrawl.jl:与Amazon S3上通用爬网数据集的接口下载

【文件属性】：

文件名称：CommonCrawl.jl:与Amazon S3上通用爬网数据集的接口

文件大小：7KB

文件格式：ZIP

更新时间：2024-05-30 17:53:26

Julia

CommonCrawl.jl 的接口用法语料库的实例通过以下方式获得： cc = CrawlCorpus(cache_location::String, debug::Bool=false) 由于爬取的主体文件很大，因此默认情况下会在cache_location它们本地缓存。第一次访问文件时，会将其完全下载到缓存位置。随后的读取请求在本地服务。可以删除所有缓存的文件或特定的缓存的存档文件： clear_cache(cc::CrawlCorpus) clear_cache(cc::CrawlCorpus, archive::URI) 段中的段和归档文件可以列出为： segment_names = segments(cc::CrawlCorpus) archive_uris = archives(cc::CrawlCorpus, segment::String) 可以按以下

立即下载

【文件预览】：
CommonCrawl.jl-master
----src()
--------CommonCrawl.jl(543B)
--------analyze.jl(5KB)
--------parse.jl(5KB)
----REQUIRE(50B)
----.travis.yml(506B)
----LICENSE(1KB)
----test()
--------runtests.jl(90B)
--------test.jl(810B)
----README.md(2KB)

秒客网

CommonCrawl.jl:与Amazon S3上通用爬网数据集的接口

网友评论

相关文章