文件名称:CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具
文件大小:431KB
文件格式:ZIP
更新时间:2024-05-23 20:19:52
Python
[来源]( ) 介绍 大约18亿个网页的[Commoncrawl]( 原始数据存储在。特定URL的位置(即* .wikipedia.org)可通过可查询的API [cdx]访问。 -index-clinet]( )。 使用cdx-index-client,可以找到每个url,WARC,WET和WAT三种文件类型的位置。 * WARC文件,用于存储原始爬网数据* WAT文件,用于存储WARC中存储的数据的计算出的元数据,包括纯文本* WET文件,用于存储从WARC中存储的数据中提取的纯文本 为了下载,解析和清理commoncrawl数据,运行了四个m4 x xlarge的生产群集[CCBlast]( )。 CCBlast从[cdx-index-clinet]( )获取S3文件位置信息,并将相关的WAT和WET文件下载到本地计算机,解析数据以删除不必要的元数据,清除数据中有问题的字符
【文件预览】:
CCblast-master
----img()
--------warc.png(431KB)
----CC_Blast_Parser.py(2KB)
----requirements.txt(118B)
----CC_Blast.py(12KB)
----README.md(2KB)
----cdx_index_client.py(10KB)