Text embedding optimization:首先获取到编辑后text的embedding
e
t
g
t
e_{tgt}
etgt,之后只是训练embedding部分,冻结diffusion model主体,训练很少的步数,以使得优化之后的embedding
e
o
p
t
e_{opt}
eopt没有发生很大的变化,便于第三步的插值操作;
Model fine-tuning:因为第一步只训练了很少的步数,所以生成的图片不能和原图完全一致,所以进行了全模型的训练(优化之后的embedding冻结),此时使用的是
e
o
p
t
e_{opt}
eopt,但是在finetune后接的超分模型的时候使用的是
e
t
g
t
e_{tgt}
etgt;
Text embedding interpolation:进行
e
t
g
t
,
e
o
p
t
e_{tgt},e_{opt}
etgt,eopt之间的插值:
e
‾
=
η
⋅
e
t
g
t
+
(
1
−
η
)
⋅
e
o
p
t
\overline{e} = \eta\cdot e_{tgt} + (1 - \eta)\cdot e_{opt}
e=η⋅etgt+(1−η)⋅eopt,以这个作为最后的embedding来生成,后接的超分模型还是使用
e
t
g
t
e_{tgt}
etgt