DISCO: Disentangled Control for Realistic Human Dance Generation
给出
f
,
g
f,g
f,g作为参考图片的前背景,然后给出单个pose
p
=
p
t
p=p_t
p=pt或者pose序列
p
=
{
p
1
,
p
2
,
⋯
,
p
T
}
p = \{p_1,p_2,\cdots,p_T\}
p={p1,p2,⋯,pT},目标是生成对应的单张图片
I
t
I_t
It或者视频
V
=
{
I
1
,
I
2
,
⋯
,
I
T
}
V = \{I_1,I_2,\cdots,I_T\}
V={I1,I2,⋯,IT},生成的结果需要同时和提供的
f
,
g
,
p
f,g,p
f,g,p相符合,并且具有泛化性,以可以生成训练数据之外的场景,并且可以任意组合上面三种条件;