畅游Diffusion数字人(0)：专栏文章导航

2024年基于Diffusion Models的数字人技术风风火火，Hallo绝对是其中最火的一个之一。Hallo一大亮点是引入了hierarchical audio-driven visual synthesis模块，该模块采用交叉注意机制来建立音频与视觉特征（比如嘴唇、表情和头部姿势）之间的对应关系。随后，使用自适应权重融合这些交叉注意力。基于这种分层音频驱动的视觉合成模块，我们可以手动控制视频里人物的嘴唇、表情和头部姿势的强度。

秒客网

畅游Diffusion数字人(0)：专栏文章导航

相关文章