文件名称:使用生成对抗网络从文本合成图像-研究论文
文件大小:309KB
文件格式:PDF
更新时间:2024-06-30 04:10:07
Generative Adversarial Networks (GAN)
最近条件生成模型的主要应用之一是从自然语言生成图像。 除了对这些模型条件性、超维分布的测试能力之外,文本到图像合成还有几个令人兴奋和明智的应用,例如照片编辑或计算机辅助内容创建。 使用生成对抗网络 (GAN),最近取得了进展。 该项目首先对这些主题进行了温和的介绍,并讨论了当前最先进的模型。 此外,这里提出了一个独特的深度架构和 GAN 公式,以有效地连接文本和图像建模、从字符到像素的视觉思想的进展。 它展示了该模型从详细的文本描述中生成可信的花鸟图像的能力。 此外,Wasserstein GAN-CLS 提出了一种新的条件图像生成模型,该模型基于与 Wasserstein 的距离提供稳定性保证。 然后展示了条件渐进式增长 GAN 如何使用 Wasserstein GAN-CLS 的新损失函数。 该模型与建议的损失相结合,将模型的最佳初始分数(在加州理工学院鸟类数据集上)提高了 7.07%,该分数仅使用句子级别的视觉语义。 只有性能比 Conditional Wasserstein Progressive GAN 更好的模型是新提出的 AttnGAN,它也在单词级别使用了视觉半导体。