微软 VASA-1 模型：仅需静态人像及音频片段即可合成口型完全吻合的超真实视频

资讯 ⏱️ 2024 年 4 月 21 日, 11:17 下午 📝 walkingdog

微软亚洲研究院宣布了一个新的高级模型：VASA-1 模型。通过 VASA-1 模型，仅需一张人像照片以及音频片段，即可生成与口型脸型完全吻合的动态视频。

VASA-1 模型的主要特点有：

VASA-1 生成的一个视频片段案例如下：

关于 VASA-1 的具体介绍可以查看这里：VASA-1: Lifelike Audio-Driven Talking Faces

AI AI Model VASA-1

名字*

邮箱

0 评论

最旧