Imagic: Text-Based Real Image Editing with Diffusion Models

Text embedding optimization：首先获取到编辑后text的embedding

e_{tgt}

，之后只是训练embedding部分，冻结diffusion model主体，训练很少的步数，以使得优化之后的embedding

e_{opt}

没有发生很大的变化，便于第三步的插值操作；

Model fine-tuning：因为第一步只训练了很少的步数，所以生成的图片不能和原图完全一致，所以进行了全模型的训练(优化之后的embedding冻结)，此时使用的是

e_{opt}

，但是在finetune后接的超分模型的时候使用的是

e_{tgt}

；

Text embedding interpolation：进行

e_{tgt},e_{opt}

之间的插值：

\overline{e} = \eta\cdot e_{tgt} + (1 - \eta)\cdot e_{opt}

，以这个作为最后的embedding来生成，后接的超分模型还是使用

e_{tgt}

秒客网