旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度,取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同,旷视 MegActor 将采用开源的方式,提供给开发者社区使用。MegActor 能够呈现出丝毫毕现的效果,面部细节更加丰富自然,画质更出色。
在数据训练方面,旷视研究院团队仅使用公开的数据集进行训练,处理了 VFHQ 和 CeleV 数据集进行训练,总时长超过 700 小时。同时,为了避免 ID 泄露问题,MegActor 还使用换脸和风格化方法 1:1 生成合成数据,实现表情和动作一致、但 ID 不一致的数据。此外,为了提高对大范围动作和夸张表情的模仿能力,团队使用注视检测模型对数据进行处理,获取大约 5% 的高质量数据进行 Finetune 训练。
通过采用一系列新的模型框架和训练方法,旷视研究院团队仅使用了不到 200 块 V100 显卡小时的训练时长,最终实现的具体特性包括:
- 可以根据输入的视频生成任意持续时间的模仿视频,同时保证角色身份的一致性
- 支持各种驱动视频,如演讲、唱歌、表情包等
- 支持不同的画风(照片、传统绘画、漫画、AI 数字人等)
与音频生成的方法相比,MegActor 生成的视频,不仅能确保表情和动作一致,更能达到同样的自然程度。
相关导航
暂无评论...