文件名称:a-PyTorch-Tutorial-to-Image-Captioning:显示,参加和讲述| PyTorch教程以进行图像字幕
文件大小:9.74MB
文件格式:ZIP
更新时间:2024-05-26 20:22:09
computer-vision pytorch image-captioning show-attend-and-tell attention-mechanism
这是图像字幕的教程。 这是我正在编写的第一篇,是关于如何使用令人惊叹的PyTorch库自己实现酷模型的。 假定具备PyTorch,卷积和递归神经网络的基本知识。 如果您是PyTorch的新手,请先阅读PyTorch的和 。 问题,建议或更正可以作为问题发布。 我在Python 3.6使用PyTorch 0.4 。 2020年1月27日:添加了两个新教程的工作代码-和 内容 客观的 为了构建可以为图像生成描述性标题的模型,我们提供了它。 为了使事情简单,让我们实现“显示,出席和讲述”文件。 这绝不是当前的最新技术,但仍然相当惊人。 作者的原始实现可以在此处找到。 该模型学习在哪里看。 当您逐字生成标题时,可以看到模型的视线在图像上移动。 这是有可能的,因为它具有“注意”机制,该机制可以使其专注于图像中与下一个要说的单词最相关的部分。 以下是在训练或验证期间未看到的测试图
【文件预览】:
a-PyTorch-Tutorial-to-Image-Captioning-master
----train.py(13KB)
----create_input_files.py(479B)
----caption.py(8KB)
----img()
--------babycake.png(429KB)
--------bikefence.png(685KB)
--------weights.png(1KB)
--------catbanana.png(517KB)
--------biketrain.png(662KB)
--------att.png(161KB)
--------dogtie.png(549KB)
--------manbike.png(698KB)
--------tommy.png(381KB)
--------doublystochastic.png(1KB)
--------decoder_no_att.png(105KB)
--------decoder_att.png(955KB)
--------sheep.png(535KB)
--------model.png(452KB)
--------boats.png(672KB)
--------sorted2.jpg(318KB)
--------birds.png(411KB)
--------beam_search.png(576KB)
--------plane.png(417KB)
--------salad.png(587KB)
--------sorted.jpg(149KB)
--------firehydrant.png(730KB)
--------encoder.png(323KB)
----utils.py(10KB)
----datasets.py(2KB)
----.idea()
--------misc.xml(195B)
--------caption.iml(441B)
--------modules.xml(266B)
--------vcs.xml(180B)
----models.py(9KB)
----LICENSE(1KB)
----eval.py(7KB)
----README.md(34KB)