CommonCrawl.jl:与Amazon S3上通用爬网数据集的接口

时间:2024-05-30 17:53:26
【文件属性】:

文件名称:CommonCrawl.jl:与Amazon S3上通用爬网数据集的接口

文件大小:7KB

文件格式:ZIP

更新时间:2024-05-30 17:53:26

Julia

CommonCrawl.jl 的接口 用法 语料库的实例通过以下方式获得: cc = CrawlCorpus(cache_location::String, debug::Bool=false) 由于爬取的主体文件很大,因此默认情况下会在cache_location它们本地缓存。 第一次访问文件时,会将其完全下载到缓存位置。 随后的读取请求在本地服务。 可以删除所有缓存的文件或特定的缓存的存档文件: clear_cache(cc::CrawlCorpus) clear_cache(cc::CrawlCorpus, archive::URI) 段中的段和归档文件可以列出为: segment_names = segments(cc::CrawlCorpus) archive_uris = archives(cc::CrawlCorpus, segment::String) 可以按以下


【文件预览】:
CommonCrawl.jl-master
----src()
--------CommonCrawl.jl(543B)
--------analyze.jl(5KB)
--------parse.jl(5KB)
----REQUIRE(50B)
----.travis.yml(506B)
----LICENSE(1KB)
----test()
--------runtests.jl(90B)
--------test.jl(810B)
----README.md(2KB)

网友评论