DISCO: Disentangled Control for Realistic Human Dance Generation

时间:2024-06-02 16:45:26
给出 f , g f,g f,g作为参考图片的前背景,然后给出单个pose p = p t p=p_t p=pt或者pose序列 p = { p 1 , p 2 , ⋯   , p T } p = \{p_1,p_2,\cdots,p_T\} p={p1,p2,,pT},目标是生成对应的单张图片 I t I_t It或者视频 V = { I 1 , I 2 , ⋯   , I T } V = \{I_1,I_2,\cdots,I_T\} V={I1,I2,,IT},生成的结果需要同时和提供的 f , g , p f,g,p f,g,p相符合,并且具有泛化性,以可以生成训练数据之外的场景,并且可以任意组合上面三种条件;