微软亚洲研究院宣布了一个新的高级模型:VASA-1 模型。通过 VASA-1 模型,仅需一张人像照片以及音频片段,即可生成与口型脸型完全吻合的动态视频。
VASA-1 模型的主要特点有:
- 保持口型吻合
- 能还原出面部细微差别
- 能还原出头部的运动情况
- 生成的视频在初始阶段拥有极低的延迟(官方宣称可以忽略不计)
- 在 512 * 512 分辨率下可以提供 40 FPS 的帧率
VASA-1 生成的一个视频片段案例如下:
关于 VASA-1 的具体介绍可以查看这里:VASA-1: Lifelike Audio-Driven Talking Faces