domains:世界上最大的互联网域数据集

时间:2024-05-20 09:21:33
【文件属性】:

文件名称:domains:世界上最大的互联网域数据集

文件大小:2GB

文件格式:ZIP

更新时间:2024-05-20 09:21:33

dataset scrapy search-engines yacy colly

:处理PB级的数据,因此您不必 世界上最大的互联网域数据集 该公共数据集包含可免费获得的Internet域排序列表。 需要支持! 您可以通过以下任意组合来支持该项目: 在您的网站上发布指向的链接 在上赞助该项目 出现问题并附加了尚不存在的其他域数据集(请务必先滚动阅读此自述文件) 里程碑: 域 千万 20000000 3000万 五千万 7000万 亿 1.5亿 2亿 2.5亿 3亿 4亿 5亿 7.5亿 1十亿 12亿 15亿 17亿 (浪费)互联网流量: 500TB 925TB 1PB 1.3PB 1.5PB 随机事实: 超过1TB的Internet流量仅3 MB的压缩数据 一百万个域仅压缩了5 MB 要爬取4.45亿个域(3.4 TB / 100万个),需要超过1.5PB的Internet流量。 只需3Gb磁盘空间即可以压


网友评论