阿里发布EMO(Emote Portrait Alive)使用一张图片生成极度真实的唱歌说话视频,这下数字人行业估计要全体起立,如果说SORA让现实不存在了,那这个项目应该怎么形容
EMO是什么
EMO (Emote Portrait Alive)是由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的A肖像视频生成系统,能够通过输入单一的参考因像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。该系统能够捕捉到人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。
官方项目地址: https://humanaigc.github.io/emote-portrait-alive/
arxiv研究论文:https://arxiv.org/abs/2402.17485
EMO GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
阿里巴巴集团智能计算研究所团队(作者 Linrui Tian, Qi Wang,Bang Zhang, Liefeng Bo )研发了 EMO技术框架,一个能够根据单张图片和声音输入(如对话或歌唱)生成具有丰富表情和多变头部姿势的人像视频的框架。无论输入音频的长度如何,我们都能够生成相应时长的视频,完美保持角色的个性和特征。
EMO主要功能和特色
•音频驱动的视频生成:EMO能够根据输入的音频(如说话或唱歌) 直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。
。高表现力和逼真度:EMO生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。
•无缝帧过渡:EMO确保视频帧之问的过渡自然流畅,避免了面部扭曲或帧问抖动的问题,从而提高了视频的整体质量。
。身份保持:通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。
•稳定的控制机制:EMO采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。
。灵活的视频时长:EMO可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。
。跨语言和跨风格:EMO的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和3口风格,这使得EMO能够适应不同的文化和艺术风格。
1. 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
2. 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络 (Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
3. 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
4. 扩散过程:在扩散过程中,主网络接收多帧噪声作为输入,并尝试在每个时间步骤中将这些噪声去噪成连续的视频帧。这个过程涉及到两个主要的注意力机制:Reference-Attention和Audio-Attention。 Reference-Attention用于保持角色身份的一致性,而Audio-Attention则用于调制角色的动作。
5. 时问模块:为了处理时间维度并调整动作的速度,EMO使用了时间模块。这些模块通过自注意力机制在帧内的特征上操作,以捕捉视频的动态内容,并确保连续帧之间的连贯性和一致性。
6. 面部定位和速度控制:为了确保生成的角色动作的稳定性和可控性,EMO使用了面部定位器 (Face Locator) 和速度层 (Speed Layers)。面部定位器通过轻量级卷积层编码面部边界框区域,而速度层则通过将头部旋转速度嵌入到生成过程中来控制动作的速度和频率。
了.训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层集成。在图像预训练阶段,主网络和 ReferenceNet从单帧图像中学习。在视频训练阶段,引1入时间模块和音频层,以处理连续帧。最后,在速度层集成阶段,只训练时间模块和速度层,以确保音频对角色动作的驱动能力。
8.生成视频:在推理阶段,EMO使用DDIM采样算法生成视频片段。通过迭代去噪过程,最终生成与输入音频同步的肖像视频。
这个工具特别之处在于它能够利用单一的参考图像和音频(如说话或唱歌)来生成丰富的面部表情和头部姿势变化的肖像视频。EMO 的特点是可以根据音频的长度生成任意时长的视频,并且保持角色身份的一致性。此外,EMO 是一个纯视觉解决方案,无需XML(可拓展标记语言)和系统元数据,操作范围不受限制,支持多应用操作,并配备多种视觉感知工具用于操作定位。
EMO 能够通过输入单一的参考图像和声音音频,如说话和唱歌,生成具有表现力的视频,其中的嘴型还可以与声音匹配。这表明 EMO 能够处理任意语音和图像输入,支持任意语速和图像,从而实现高度个性化的视频内容生成。
EMO的框架分为两大部分:在“帧编码”阶段,使用 ReferenceNet 从参考图像和动作帧中提取特征。接下来,在“扩散过程”阶段,先进的音频编码器处理音频数据,结合面部区域遮罩和多帧噪声进行面部图像的生成。EMO采用的 Backbone Network 内置了两种关键的注意力机制:Reference-Attention 和 Audio-Attention,分别用于维护角色的身份特征和调节其动作。此外,通过时间模块调整动作速度,确保动态的连贯性。
当我们想要制作一个能够根据声音生成有表情的视频时,EMO的工作可以分为两个主要阶段:
帧编码阶段:首先,我们让一个名为ReferenceNet的工具从一张参考图片和一些动作帧中提取特征。这些特征可以帮助我们更好地理解参考图片和动作。
扩散过程阶段:接着,我们需要处理声音数据。我们使用一个先进的工具来处理声音,然后结合面部区域的遮罩和一些噪声,生成面部图像。EMO中的Backbone Network有两种重要的注意力机制:Reference-Attention和Audio-Attention。这些机制帮助我们保持角色的身份特征并调节他们的动作。此外,还有一个时间模块,用来调整动作的速度,确保视频中的动作连贯流畅。
在扩散过程阶段中,EMO通过音频到视频的合成过程生成具有表现力的肖像视频。通过这些步骤,EMO能够实现音频和视频之间的无缝结合,生成具有丰富表情和头部姿势的视频内容。
这就是阿里最新推出的基于音频驱动的肖像视频生成框架,EMO(Emote Portrait Alive)。
有了它,输入单张参考图像,以及一段音频(说话、唱歌、rap均可),就能生成表情生动的AI视频。视频最终长度,取决于输入音频的长度。
该框架主要由两个阶段构成:
帧编码阶段
部署一个称为ReferenceNet的UNet网络,负责从参考图像和视频的帧中提取特征。
扩散阶段
首先,预训练的音频编码器处理音频嵌入,人脸区域掩模与多帧噪声相结合来控制人脸图像的生成。
随后是骨干网络主导去噪操作。在骨干网络中应用了两种注意力,参考注意力和音频注意力,分别作用于保持角色的身份一致性和调节角色的运动。
此外,时间模块被用来操纵的时间维度,并调整运动的速度。
在训练数据方面,团队构建了一个包含超过250小时视频和超过1500万张图像的庞大且多样化的音视频数据集。
最终实现的具体特性如下:
可以根据输入音频生成任意持续时间的视频,同时保证角色身份一致性(演示中给出的最长单个视频为1分49秒)。
支持各种语言的交谈与唱歌(演示中包括普通话、广东话、英语、日语、韩语
支持不同画风(照片、传统绘画、漫画、3D渲染、AI数字人