研究中心近日在面向低质量的深度伪造人脸视频检测方面发表了一项重要研究成果。

近年来,深度学习在计算机视觉领域取得了突破性的进展,超越了众多传统的方法。然而,深度学习技术也被滥用在伪造视频的制作上,使得以 Deepfakes 为代表的伪造视频在网络上泛滥成灾,带来了一系列的负面影响。众多学者提出了一系列的检测方法来帮助机构或社区去识别此类伪造视频。尽管如此,目前的检测技术仍然存在局限性,特别是低质量的伪造视频检测成为检测技术领域面临的主要挑战和潜在研究方向。另一方面目前在低质量伪造视频检测领域的研究成果非常稀少,该项研究成果将为低质量视频检测方法研究提供参考方向和理论依据。

张敏同学自2019年开始针对深度伪造人脸检测方法进行调研,并联合中国电子科学研究院创新中心、社会安全风险感知与防控大数据应用国家工程实验室等相关研究力量,共同开展了相关研究工作。经过一年多的努力,所取得的研究成果以论文形式发表于The 33rd IEEE International Conference on Tools with Artificial Intelligence (ICTAI),论文题为“FST-Net: Exploiting Frequency Spatial Temporal Information for Low-Quality Fake Video Detection”。该研究成果也表示双方开展的战略合作具有技术落地和实践价值。

该研究成果提出了一种基于跨域特征提取的低质量伪造视频检测方法。现有的伪造视频检测方法主要针对单一域的特征提取,存在输入样本单一,模型鲁棒性差,依赖特定压缩率等重大问题。尤其是现有的检测器对于低质量数据集检测效果较差。针对这些问题,研究团队提出了一种基于频域,空域及时域联合信息挖掘的低质量视频检测方法。该方法提出了一种新颖的双流架构。全面挖掘了帧内频率特征和帧组之间的时空特征。具体地,该方法采用了两种新颖的机制,首先针对帧内频率特征,提出了一种基于信道注意力的频谱分解机制,可以自适应学习不同频谱分量的权重;其次针对帧组之间的时空差异,提出了一种基于注意力的可分离3D卷积,考虑了空间和时间的互补关系,减少了噪声对时间建模的影响。该模型在伪造视频经过压缩的情况下仍然具有较高的检测精度。大量的实验结果证明了该模型的优越性。

分类: 新闻