文件名称:domains:世界上最大的互联网域数据集
文件大小:2GB
文件格式:ZIP
更新时间:2024-05-20 09:21:33
dataset scrapy search-engines yacy colly
:处理PB级的数据,因此您不必 世界上最大的互联网域数据集 该公共数据集包含可免费获得的Internet域排序列表。 需要支持! 您可以通过以下任意组合来支持该项目: 在您的网站上发布指向的链接 在上赞助该项目 出现问题并附加了尚不存在的其他域数据集(请务必先滚动阅读此自述文件) 里程碑: 域 千万 20000000 3000万 五千万 7000万 亿 1.5亿 2亿 2.5亿 3亿 4亿 5亿 7.5亿 1十亿 12亿 15亿 17亿 (浪费)互联网流量: 500TB 925TB 1PB 1.3PB 1.5PB 随机事实: 超过1TB的Internet流量仅3 MB的压缩数据 一百万个域仅压缩了5 MB 要爬取4.45亿个域(3.4 TB / 100万个),需要超过1.5PB的Internet流量。 只需3Gb磁盘空间即可以压