AI视频音频视频创作

MegActor-AI人像视频生成

旷视开源的AI人像视频生成

标签：AI视频生成视频生成

链接直达手机查看

旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架，用户只需输入一张静态的肖像图片，以及一段视频（演讲、表情包、rap）文件，即可生成一段表情丰富、动作一致的 AI 人像视频。MegActor 所生成的视频长度，取决于给定的驱动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同，旷视 MegActor 将采用开源的方式，提供给开发者社区使用。MegActor 能够呈现出丝毫毕现的效果，面部细节更加丰富自然，画质更出色。

在数据训练方面，旷视研究院团队仅使用公开的数据集进行训练，处理了 VFHQ 和 CeleV 数据集进行训练，总时长超过 700 小时。同时，为了避免 ID 泄露问题，MegActor 还使用换脸和风格化方法 1:1 生成合成数据，实现表情和动作一致、但 ID 不一致的数据。此外，为了提高对大范围动作和夸张表情的模仿能力，团队使用注视检测模型对数据进行处理，获取大约 5% 的高质量数据进行 Finetune 训练。

通过采用一系列新的模型框架和训练方法，旷视研究院团队仅使用了不到 200 块 V100 显卡小时的训练时长，最终实现的具体特性包括：