微软(中国)2024 地球日活动
0

微软 VASA-1 模型:仅需静态人像及音频片段即可合成口型完全吻合的超真实视频

微软亚洲研究院宣布了一个新的高级模型:VASA-1 模型。通过 VASA-1 模型,仅需一张人像照片以及音频片段,即可生成与口型脸型完全吻合的动态视频。

VASA-1 模型的主要特点有:

  • 保持口型吻合
  • 能还原出面部细微差别
  • 能还原出头部的运动情况
  • 生成的视频在初始阶段拥有极低的延迟(官方宣称可以忽略不计)
  • 在 512 * 512 分辨率下可以提供 40 FPS 的帧率

VASA-1 生成的一个视频片段案例如下:

关于 VASA-1 的具体介绍可以查看这里:VASA-1: Lifelike Audio-Driven Talking Faces

guest
0 评论
内联反馈
查看所有评论
订阅
X

您正在使用 IE 6 浏览器访问本博客。简单几步,您就可以升级:Internet Explorer

X