文件名称:DownloadConceptualCaptions:高效可靠地下载数百万个图像
文件大小:2.18MB
文件格式:ZIP
更新时间:2024-06-08 15:56:28
JupyterNotebook
下载概念字幕数据 将来自以下位置的数据放在以下文件夹中: : Train_GCC-training.tsv训练分组(3,318,333) Validation_GCC-1.1.0-Validation.tsv验证拆分(15,840) 测试分割(〜12,500)个人认可的图像标题对不公开。 运行download_data.py 图像将位于training和validation文件夹中。 您可以停止然后继续,将下载分为多个块/线程的设置不是最佳的,但是它使我的连接最大,因此我将它们保持原样。 注意:此脚本的先前版本使用了不同的文件命名方案,但此更改已更改,如果您要恢复先前开始的下载,则会得到重复的文件。 其中许多将无法下载,而是返回网页。 这些将需要稍后清理。 downloaded_validation_report.tsv后,请查看downloaded_validation
【文件预览】:
DownloadConceptualCaptions-master
----.gitignore(1KB)
----requirements.txt(40B)
----download_data.py(5KB)
----LICENSE(1KB)
----downloaded_report.ipynb(169KB)
----README.md(1KB)
----downloaded_validation_report.tsv.gz(2.08MB)
----validation()
--------.gitkeep(0B)
----training()
--------.gitkeep(0B)