CLIP-GEN: Language-Free Training of a Text-to-Image Generator wi

时间:2022-08-23 10:51:32
【文件属性】:

文件名称:CLIP-GEN: Language-Free Training of a Text-to-Image Generator wi

文件大小:6.5MB

文件格式:PDF

更新时间:2022-08-23 10:51:32

CLIP-GEN Text-to-ImageGe

CLIP-GEN 是一个 Language-Free 的文本生成图像的方法,它不依赖图文训练样本,通过预训练 CLIP 模型的强大表征能力,只需要图片数据就可以训练出一个文本生成图像的模型。该方法的基本原理是:CLIP-GEN 首先会训练一个 VQ-GAN,把图片映射到离散空间;然后再训练一个 GPT 模型,把 CLIP embedding 映射到 VQ-GAN 的离散空间;由于在 CLIP 中,文本和图像共享一个特征空间,在 inference 的时候我们就可以通过同样的方法把文本映射到 VQ-GAN 的离散空间,然后 decode 为 RGB 图像。


网友评论