随着大型文本到图像扩散模型(如GLIDE[12]、DALL·E 2[15]、Imagen[19]和Stable Diffusion(SD)[16])的出现,图像生成技术取得了显著进步。这些发展的焦点是个性化和定制生成,旨在根据一个或多个参考图像创建风格、主题或角色 ID 一致的图像。这种方法因其在电子商务广告、AI肖像、图像动画和虚拟试穿等应用中的广泛潜力而引起了广泛关注。然而,一个显著的挑战仍然存在:生成准确保留人类主体复杂身份细节的定制图像。这项任务特别具有挑战性,因为人类面部身份(ID)涉及更细致的语义,与主要侧重于粗粒度纹理和颜色的一般风格或对象相比,需要更高标准的细节和保真度。现有的基于详细文本描述的基本文本到图像模型在定制生成中未能实现强大的语义相关性。为了增强可控性,最近的工作(如ControlNet[25]和T2I-adapter[11])已经被引入。这些进展为大型预训练文本到图像模型添加了空间条件控制,通过用户绘制的草图、深度图、身体姿势和语义分割图等元素,促进了细粒度结构控制。此外,针对风格或内容引用的适应性,如T2I-adapter的风格适配器和Uni-ControlNet的全局控制器,在这一领域取得了进展。
尽管取得了这些进展,生成的图像与参考图像的保真度仍然只是部分的。为了增强带有参考图像的图像生成,目前的个性化生成方法可以根据测试期间是否需要微调进行分类。第一种类型包括需要微调的方法,领先的例子包括DreamBooth[18]、Textual Inversion[4]和Low-Rank Adaptation[6](LoRA)。这些方法旨在微调预训练的文本到图像模型,以更好地反映参考图像中的新方面。虽然这些方法在实现高准确性方面是有效的,但微调过程资源密集且耗时,限制了它们的实用性。此外,它们通常需要在各种设置中使用多个参考图像,并且在数据有限的情况下(例如相同的字符ID)会遇到困难。
第二种类型在推理过程中绕过了微调。它涉及构建大量领域特定数据,并为从参考图像中提取特征构建轻量级适配器。然后,该适配器使用交叉注意力将这些特征集成到扩散生成过程中。IP-Adapter[24]是代表作之一,它采用独特的交叉注意力机制来分离文本和图像特征,允许将参考图像作为视觉提示注入。然而,这种主要依赖于CLIP[14]图像编码器的方法往往只产生弱对齐的信号,无法创建高保真度的定制图像。
考虑到这些限制,我们介绍了一种新的方法(InstantID),专注于即时保持身份的图像合成。在本研究中,我们通过引入一个简单的即插即用模块来弥合高保真度和效率之间的差距,使其能够熟练处理任何风格的图像个性化,只需使用一个面部图像,同时保持高保真度。为了保留来自参考图像的面部身份,我们设计了一个新颖的面部编码器,通过添加强大的语义和弱空间条件来保留复杂的细节,这些条件结合了面部图像、标志图像和文本提示来引导图像生成过程。我们在以下方面将我们的工作与以前的工作区分开来:(1)可插拔性和兼容性:我们专注于训练一个轻量级适配器,而不是完整的UNet[17]参数,使我们的模块可插拔并与社区中的预训练模型兼容;(2)无需微调:我们的方法仅需要进行单向传播来进行推理,无需微调。这个特点使InstantID在实际应用中具有极高的经济性和实用性;(3)卓越性能:只需一个参考图像,InstantID就能达到最先进的结果,表现出高保真度和灵活性。值得注意的是,它可以匹配甚至超越依赖多个参考图像的LoRAs等基于训练的方法的性能。
总之,我们的贡献有三个方面:
• 我们提出了InstantID,这是一种创新的保持身份适应方法,用于预训练的文本到图像扩散模型,可以很好地弥合保真度和效率之间的差距。实验结果表明,与该领域其他最先进方法相比,我们提出的方法表现出了优异的性能。
• InstantID是可插拔的,并且与从相同基础扩散模型微调得到的其他自定义模型兼容,可以在预训练模型中保持身份,而无需额外费用。此外,InstantID保持了对文本编辑的相当控制,正如原始的Stable Diffusion模型中观察到的那样,使得可以将身份平滑地整合到各种风格中。
• InstantID的优异性能和效率激发了它在一系列实际应用中的巨大潜力,例如新视图合成、身份插值、多身份和多风格合成。