2024年基于Diffusion Models的数字人技术风风火火,Hallo绝对是其中最火的一个之一。Hallo一大亮点是引入了hierarchical audio-driven visual synthesis模块,该模块采用交叉注意机制来建立音频与视觉特征(比如嘴唇、表情和头部姿势)之间的对应关系。随后,使用自适应权重融合这些交叉注意力。基于这种分层音频驱动的视觉合成模块,我们可以手动控制视频里人物的嘴唇、表情和头部姿势的强度。
2024年基于Diffusion Models的数字人技术风风火火,Hallo绝对是其中最火的一个之一。Hallo一大亮点是引入了hierarchical audio-driven visual synthesis模块,该模块采用交叉注意机制来建立音频与视觉特征(比如嘴唇、表情和头部姿势)之间的对应关系。随后,使用自适应权重融合这些交叉注意力。基于这种分层音频驱动的视觉合成模块,我们可以手动控制视频里人物的嘴唇、表情和头部姿势的强度。