【深度学习】DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection

Posted by ShawnD on May 23, 2022

Abstract

大规模公共数据集的免费访问,以及深度学习技术的快速发展,特别是生成对抗网络,生成非常逼真的假内容及其对社会的影响, 导致了这个假新闻时代。

这篇文章提供了包括 DeepFake方法和检测这个操作的方法的技术回顾:

1) entire face synthesis 2) identity swap 3) attribute manipulation 4) expression swap

对于每个操纵组,这篇文章提供了有关操纵技术、现有公共数据集和假检测方法技术评估的关键基准的详细信息,包括这些评估结果的总结。

在调查中讨论的所有方面中,特别关注最新一代的DeepFakes,强调其在 fake 检测方面的改进和挑战。

CONCLUDING REMARKS

受数字面部处理技术,特别是深度伪造技术持续成功的推动,本调查提供了该领域的全面全景,包括最新的细节:

1) type of facial manipulations 2) facial manipulation techniques 3) public databases for research 4) benchmarks for detection of each facial manipulation group

包括最具代表性的操纵检测方法所取得的关键结果。

一般来说,大多数当前的面部操作似乎很容易在受控场景下被检测到,即当 Fake 检测器在相同的条件下进行评估时。这一事实已经在本次调查中包括的大多数基准中得到了证明,在操纵检测中实现了非常低的错误率。然而,这个场景可能不是很真实,因为伪造的图片和视频通常在社交网络上分享,有很大的方差,如压缩级别,调整大小,噪音等。此外,face manipulation 技术也在不断改进。这些因素促使我们进一步研究Fake 检测器在不可见条件下的泛化能力。这方面在不同的工作[16],[59][61]中进行了初步的研究。未来的研究可能会与最新的著作一致[187],[188],因为它们不需要假视频来进行训练,从而提供了更好的不可见攻击的泛化能力。

在特征或分数水平上的融合技术可以使 Fake 检测器更好地适应不同的场景[189][191]。事实上, 不同的 Fake 检测的作法已经根据不同的信息来源的组合, 例如,周等人在[95]提出的检测系统的基础上,结合隐写式密码解密和纯深度学习的特征,在[141]Rathgeb等人提出结合空间和光谱特征。最近,[192]、[193]提出了另外两种有趣的融合方法,结合RGB、Depth和红外信息来检测物理面部攻击。此外,为了使用多帧检测假视频,也有人提出了人脸加权方法[194]。最后,在将视频上传到社交网络时,文本、按键或音频等其他信息源的融合对于改进检测器非常有价值[195][198]。

除了基于图像/视频信息的传统 fake 检测器,应该研究新的方法提供更鲁棒性的工具。这方面的一个例子是Tursman等人在[199]中提出的工作。作者提出通过捕捉时间的社会验证来检测虚假内容:真实性的仲裁者是一组视频摄像机,它们同步捕捉发言者,共同达成共识,然后在他们的视频中实时签名为真实。这样的方法可以进一步保护媒体内容免受攻击。

  • Face Synthesis: 目前的操作通常基于GAN架构,如StyleGAN,提供非常逼真的图像。尽管如此,大多数检测器都能轻松区分真伪图像,准确率接近100%。这是由于假图像是由特定的GAN指纹特征。但是,如果我们能够去除这些GAN指纹或添加一些噪声模式,同时保持非常真实的合成图像呢?最近的方法集中在这条研究线上,这代表了一个挑战,即使是最好的操纵检测系统[16],[78],[200]

  • Identity Swap: 虽然文献中提出了许多不同的方法,但确定哪一种是最好的当然是困难的。这是由许多不同的因素造成的。首先,大多数方法都是针对特定的数据库和压缩级别进行训练的,通常都能取得很好的效果。然而,对于不可见的条件,它们都显示出较差的泛化结果。此外,不同的指标(例如Acc。, AUC, EER等)和实验协议通常被认为无助于实现研究之间的公平比较。所有这些方面都应进一步加以考虑,以便在该领域取得进展。

此外,我们想重点介绍最新的第二代DeepFake数据库如DFDC、Celeb-DF[26][83]中的检测结果。虽然 Fake 检测器已经在UADFV 和 FaceForensics + + [12],82] 等数据集实现AUC结果接近100%, 他们都有高最新的性能下降, 尤其是Celeb-DF数据库AUC结果在大多数情况下低于60%。因此,需要更多的努力来进一步改善当前的 Fake 检测系统,例如通过大规模的挑战和基准,如最近的DFDC。

  • Attribute Manipulation: 同样的方面强调的面部合成(GAN指纹去除)也适用于这里,因为大多数操作是基于GAN架构。此外,值得注意的是,用于研究的公共数据库很少(只有DFFD数据库是公开可用的[17]),而且缺乏标准的实验协议来进行研究之间的公平比较。

  • Expression Swap: 与身份交换(随着改进的Deep-Fake数据库的发布而迅速发展)相反,据我们所知,表情交换中唯一的公共数据库是FaceForensics++。

所有的这些方面一起发展提升了 GAN 方法 并且 DeepFake Detection Challenge 用更先进的人脸控制检测技术促进新一代的 真实/伪造 图像/视频。