关键词:
生成对抗网络
潜空间
逆映射
注意力机制
摘要:
随着计算机科技的迅猛发展,深度学习驱动的人脸生成与编辑技术已经吸引了大量研究兴趣。生成对抗网络(GAN)在创建高清晰度人脸图像和进行人脸编辑方面取得了显著进展。生成对抗网络(GAN)的潜在空间(可简称为潜空间)语义表达研究成为隐式图像表示领域的研究焦点,并在数字内容中展现出广泛的应用前景。然而,对于实际应用场景中真实人脸图像的处理和操控,仍然面临着许多挑战和亟待解决的问题。为了利用GAN潜空间丰富的语义信息来操控真实图像,需要将真实图像逆映射至GAN潜空间的流形中,然而目前的方法无法准确的将图像嵌入潜空间,导致无法精确重建图像和进行语义修改。本研究旨在探索和优化GAN在人脸图像逆映射与编辑方面的算法,以实现更高质量的图像逆映射和编辑。通过根据潜空间性质设计编码器结构、选择设计损失函数等方法,实现了对真实图像在潜空间的准确逆映射和基于潜空间的语义编辑。
研究分为三个主要部分:
(1)提出了一种域内高保真逆映射算法,该算法通过交叉注意力机制结合了StyleGAN的W空间和W+空间的特性,以实现在图像逆映射任务中的高保真度和编辑灵活性。通过改进特征提取网络的结构和引入高效下采样模块,充分利用浅层特征,设计编码器能够生成既具有全局一致性又包含丰富细节的w+潜码。实验结果表明,该方法在结构相似度(SSIM)和身份感知(IDS)以及局部区域感知效果方面表现出良好的性能。
(2)探讨了注意力图引导的域外GAN逆映射问题。通过从StyleGAN生成器中提取不同分辨率的特征图,并设计注意力图预测模块,精确定位编辑区域和域外区域。引入CLIP损失和额外的身份保护损失,以改善潜空间的属性纠缠。实验结果表明,该方法在保持编辑图像真实性的同时,有效地解决了域外信息丢失问题。
(3)提出了一种含有向量约束的文本驱动人脸图像编辑算法。针对StyleCLIP模型中潜空间映射器产生的属性偏移存在的耦合问题,引入新的向量约束损失,优化映射器产生的偏移远离属性分离超平面,从而实现属性解纠缠。
总体而言,本文研究了StyleGAN的潜空间特性、深层特征提取网络的性质和注意力机制,尝试为基于GAN的真实人脸图像逆映射和编辑领域带来了新的视角和技术支持。