AI视频音频 视听创作
Hallo-对口型AI

开源对口型AI让静态肖像动起来

标签:
广告也精彩

Hallo是一个基于音频驱动的层次化视觉合成工具,它利用人工智能技术,让图片中的人物能够根据语音的变化做出相应的面部表情和嘴唇动作。

传统的方法通常使用参数模型来表示面部动作,但这项研究采用了一种新颖的方法,即端到端扩散范式。这意味着它不再依赖于中间的面部表示模型,而是直接从语音输入生成面部动画。

目前上线5天,就收获3.8k星!

这个项目是由复旦大学、百度公司、苏黎世联邦理工学院、南京大学开发的,它能够将静态的肖像图片变成动态的动画。

也就是通俗的说的对口型AI!下面我们先看看例子!

影视制作的潜在应用:除此之外,Hallo 展示了在影视制作领域的巨大潜力。通过仅有一段电影对白和一个虚拟角色,可以让虚拟角色生动演绎经典电影场景。

Hallo-对口型AI

Hallo它是怎么工作的?

Hallo是一个基于音频驱动的层次化视觉合成工具,它利用人工智能技术,让图片中的人物能够根据语音的变化做出相应的面部表情和嘴唇动作。

传统的方法通常使用参数模型来表示面部动作,但这项研究采用了一种新颖的方法,即端到端扩散范式。这意味着它不再依赖于中间的面部表示模型,而是直接从语音输入生成面部动画。

Hallo-对口型AI

研究者们还开发了一个分层的音频驱动视觉合成模块,这个模块可以更精确地对齐语音输入和视觉输出,包括嘴唇、表情和姿势的动作。

他们提出的网络架构结合了基于扩散的生成模型、UNet-based去噪器、时间对齐技术和参考网络。

如何使用?

首先clone项目工程,然后设置好环境

  conda create -n hallo python=3.10
  conda activate hallo

然后再按照依赖

  pip install -r requirements.txt
  pip install .

下载预训练模型

git lfs install
git clone https://huggingface.co/fudan-generative-ai/hallo pretrained_models

相关导航

暂无评论

暂无评论...