InstantID是一个基于扩散模型的图像生成解决方案,可以快速生成从单一参考图像到多样化风格化写真。它通过利用ID插值创造全新形象,让用户能够自由地合成两张面孔。令人惊艳的是,InstantID在不需要任何训练的情况下,只需一张人脸照片和一段文本提示,就能生成具有个性化风格和高保真度的AI写真
github项目地址:
https://github.com/InstantID/InstantID
项目地址:
https://instantid.github.io
Demo 体验:
https://huggingface.co/spaces/InstantX/InstantID
论文地址:
InstantID: Zero-shot Identity-Preserving Generation in Seconds
https://arxiv.org/abs/2401.07519
InstantID怎么样?
InstantID的写真效果非常逼真,能够保持人脸特征的统一,风格融合得很好。该解决方案在开源后迅速在GitHub上获得了5000+的星标,并位居HuggingFace Space Trending榜首。
如果想要快速上手InstantID,可以按照以下步骤进行操作:
1. 上传一张带有人脸的图片。对于多人图像,InstantID会只检测最大的脸部。请确保脸部不要太小,并且没有明显的遮挡或模糊。
2. (可选)上传另一张图像作为参考姿势。如果没有上传,InstantID将使用第一张图像来提取姿势。如果在第一步中使用了裁剪后的脸部图片,建议上传它以提取新的姿势。
3. (可选)可以选择多个ControlNet模型来控制生成过程。默认设置是仅使用IdentityNet。ControlNet模型包括姿势骨架、精巧和深度。您可以根据需求调整每个ControlNet模型的强度,以控制生成过程。
4. (可选)输入文本提示词。这类似于其他文生成图应用中常见的操作。
5. 点击提交按钮开始定制写真。
6. 与朋友分享定制的写真,并尽情享受吧!
除了在线体验,InstantID还可以作为一个可适配的插件,与流行的预训练文本到图像扩散模型(如SD 1.5和SDXL)无缝集成,具有较好的兼容性。
如图所示,InstantID方法主要包含三个关键组成部分:将弱对齐的CLIP特征替换为强语义的人脸特征;在Cross-Attention中,将人脸图像的特征作为图像提示嵌入;引入IdentityNet来对人脸施加强语义和弱空间的条件控制,从而增强ID的保真度和文本的控制能力。
InstantID具备出色的文本编辑能力,能够使ID丝滑地嵌入到各种风格中。无论是加装饰、改发色还是换套装,都能够毫无问题地实现。
实验结果表明,InstantID不仅超越了目前基于单张图片特征进行嵌入的方法(如IP-Adapter-FaceID),还在特定场景下与ROOP、LoRAs等方法不相上下,并且成本更低。
InstantID彻底颠覆了大家的想象,它摒弃了多图参考和复杂的调整步骤。在保持人像面部特征上,InstantID表现出色,其一致性和自然度远超传统的LoRA模型。
除了以上提到的功能,InstantID还提供了丰富的创意玩法,如ID插值、多风格融合、定制夸张表情、动漫主题写真等。这些极大地拓宽了用户的创作空间,使图像生成变得更加灵活和个性化。