腾讯混元语音驱动数字人:照片+音频秒变生动视频,还开源了!

当一张静态照片突然开口说话、唱歌,甚至能准确表达各种情绪时,你会是什么感受?今天为大家介绍一下最新由腾讯混元团队与腾讯音乐联合推出的 HunyuanVideo-Avatar这款开源模型,效果已经非常能打了!

我尝试为之前写过的深度介绍2023年底广受瞩目的“OpenAI五日宫斗大剧”的博客准备了一段口播介绍稿,这次演示视频的人物形象我采用了4o模型生成,声音则通过hailuo进行了克隆,最后再由HunyuanVideo-Avatar完成最终的口播动画合成效果不错。

为什么这项技术值得关注?

应用前景广泛:电商宣传视频中,一张产品模特照片就能成为专业主播;短视频创作中,任何人都能让自己的照片演绎不同的故事;广告制作里,品牌形象可以直接与用户”面对面”交流。这就是 HunyuanVideo-Avatar 带来的可能性 - 只需一张照片和一段音频,就能生成栩栩如生的说话视频

这项技术已经在腾讯音乐娱乐集团的多个应用中正式上线,为用户提供服务。单人模式现已在混元官网开源,支持最长14秒的音频生成视频,多人模式也即将开源。

技术突破:解决了什么核心难题?

从技术角度看,音频驱动的数字人生成一直面临三个核心挑战,HunyuanVideo-Avatar 分别给出了创新解决方案:

1. 动态性与一致性的“鱼与熊掌”

问题:传统方法要么生成的视频过于僵硬(为了保持人物一致性),要么人物形象变形严重(为了增加动态效果)。

解决方案:这可不是简单地把参考图“贴”上去。该模块巧妙地处理特征注入,有效解决了传统方法在动态性和一致性之间的两难问题,确保了角色动作的生动自然与身份特征的稳定还原,甚至背景和前景的动态质量也得到了提升;

2. 情绪表达的精准对齐

问题:如何让生成的角色面部表情准确反映音频中的情感?

解决方案:为了让虚拟形象的“喜怒哀乐”与声音同频,AEM能够从情感参考图像中提取情感线索,并将其迁移到生成的视频中,使得角色的面部表情能准确反映音频所传递的情感。 不过值得注意的是,目前的情感驱动依赖情感参考图,而非直接从音频中实时推断情感的动态变化;

3. 多角色场景的独立控制

问题:在有多个角色的场景中,如何让音频只驱动特定的角色说话,而不影响其他角色?

解决方案:在多人对话场景中,如何让每个角色只响应自己的音频?FAA通过在隐空间层面应用面部掩码,实现了对特定面部区域的精准音频驱动,从而能够独立控制不同角色的动画,让多人对话视频的生成成为可能;

技术架构的亮点

上述三大技术突破,离不开HunyuanVideo-Avatar在底层技术架构上的精心设计与创新。HunyuanVideo-Avatar 基于多模态扩散Transformer(MM-DiT)架构构建,这是当前视频生成领域的前沿技术路线。相比传统方法,它的几个技术创新特别值得关注:

创新的位置编码策略:为了让模型更好地理解时间序列信息,团队采用了3D-RoPE位置编码,并引入空间偏移机制,有效防止模型简单地复制粘贴参考图像。

分阶段训练策略:先用纯音频数据建立基础的音频-视觉对齐,再混合音频和图像数据进行精细化训练,这种渐进式的训练方法显著提升了生成质量。

长视频生成能力:通过时间感知位置偏移融合技术,模型可以生成超过基础帧数限制的长视频,满足实际应用需求。

实际效果如何?

从定量评测结果看,HunyuanVideo-Avatar 在多个关键指标上都达到了业界领先水平:

  • 视频质量:在 IQA(图像质量评估)指标上显著优于现有方法
  • 音画同步:Sync-C 同步评分达到 5.56,远超竞争对手
  • 角色一致性:用户研究显示,在身份保持维度得分达到 4.84(满分5分)

更重要的是,在30人参与的主观评测中,HunyuanVideo-Avatar 在唇形同步和身份保持两个最关键的维度上都获得了最高评分。

技术展望

当然,这项技术仍有进步空间。目前的情绪控制仍需要参考图像引导,未来如果能直接从音频中推断情绪并生成对应表情,将更加便利。此外,推理速度的优化也是实现真正实时应用的关键。

我们正在进入一个”人人都能创造数字分身”的时代。在这个时代里,内容创作的门槛被大大降低,而想象力将成为最宝贵的资源。


感兴趣的朋友可以访问项目地址进一步了解:

  • 官网体验: https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
  • 模型: https://huggingface.co/tencent/HunyuanVideo-Avatar
  • 代码: https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar