CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具

时间:2024-05-23 20:19:52
【文件属性】:

文件名称:CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具

文件大小:431KB

文件格式:ZIP

更新时间:2024-05-23 20:19:52

Python

[来源]( ) 介绍 大约18亿个网页的[Commoncrawl]( 原始数据存储在。特定URL的位置(即* .wikipedia.org)可通过可查询的API [cdx]访问。 -index-clinet]( )。 使用cdx-index-client,可以找到每个url,WARC,WET和WAT三种文件类型的位置。 * WARC文件,用于存储原始爬网数据* WAT文件,用于存储WARC中存储的数据的计算出的元数据,包括纯文本* WET文件,用于存储从WARC中存储的数据中提取的纯文本 为了下载,解析和清理commoncrawl数据,运行了四个m4 x xlarge的生产群集[CCBlast]( )。 CCBlast从[cdx-index-clinet]( )获取S3文件位置信息,并将相关的WAT和WET文件下载到本地计算机,解析数据以删除不必要的元数据,清除数据中有问题的字符


【文件预览】:
CCblast-master
----img()
--------warc.png(431KB)
----CC_Blast_Parser.py(2KB)
----requirements.txt(118B)
----CC_Blast.py(12KB)
----README.md(2KB)
----cdx_index_client.py(10KB)

网友评论