文件名称:basic-cnn-lstm-image-captioning:用于图像字幕的基准模型
文件大小:12KB
文件格式:ZIP
更新时间:2024-04-05 21:21:58
Python
图像字幕生成器(基线模型) Windows用户-使用cmd代替bash。 Windows虚拟机不支持在Tensorflow上进行GPU训练 数据集 Flickr8K数据集 Flickr8k_Dataset.zip() 包含8092个JPEG图像 1技嘉 Flickr8k_text.zip() 包含许多文件,这些文件包含照片的不同描述(标题)来源。 2.2兆字节 该数据集具有预定义的训练数据集(6,000张图像),开发数据集(1,000张图像)和测试数据集(1,000张图像)。 运行说明 1-文件夹设置 下载数据集文件并将其放置在github存储库中。 您的文件夹结构应如下所示: |-- data -- Flickr8k_Dataset -- Flickr8k_text |-- .gitignore |-- train.py |-- eval.py |-- pre
【文件预览】:
basic-cnn-lstm-image-captioning-main
----.gitignore(35B)
----prepare_data.py(4KB)
----README.md(8KB)
----eval.py(5KB)
----.vscode()
--------settings.json(38B)
----train.py(7KB)
----new_example_pred.py(4KB)