CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具下载

【文件属性】：

文件名称：CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具

文件大小：431KB

文件格式：ZIP

更新时间：2024-05-23 20:19:52

Python

[来源]（）介绍大约18亿个网页的[Commoncrawl]（原始数据存储在。特定URL的位置（即* .wikipedia.org）可通过可查询的API [cdx]访问。 -index-clinet]（）。使用cdx-index-client，可以找到每个url，WARC，WET和WAT三种文件类型的位置。 * WARC文件，用于存储原始爬网数据* WAT文件，用于存储WARC中存储的数据的计算出的元数据，包括纯文本* WET文件，用于存储从WARC中存储的数据中提取的纯文本为了下载，解析和清理commoncrawl数据，运行了四个m4 x xlarge的生产群集[CCBlast]（）。 CCBlast从[cdx-index-clinet]（）获取S3文件位置信息，并将相关的WAT和WET文件下载到本地计算机，解析数据以删除不必要的元数据，清除数据中有问题的字符

立即下载

【文件预览】：
CCblast-master
----img()
--------warc.png(431KB)
----CC_Blast_Parser.py(2KB)
----requirements.txt(118B)
----CC_Blast.py(12KB)
----README.md(2KB)
----cdx_index_client.py(10KB)

秒客网

CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具

网友评论

相关文章