摘要
为提升多媒体信息的可靠性,减轻图像伪造事件对于社会造成的负面影响,亟需发展图像修复取证技术,检测并定位图像的篡改区域。本研究提出了一种面向图像修复的桥式注意力取证网络,该网络直接接收篡改后的图像,端到端的输出图像中被篡改的区域,网络采用编码器-解码器架构作为基础框架。首先,编码器选用Swin Transformer和RepVGG两个主干网络以提取多域修复特征。然后,使用桥式注意力模块连接两个主干网络的同级阶段,来增加编码器在局部和全局维度上的建模能力。最后,在编码器和解码器中间搭建了语义对齐融合模块,消除了两个主干网络提取的特征之间的语义不一致,有助于提高网络的取证性能。在不同修复取证数据集上的实验结果表明,所提出的模型与其他主流取证模型相比,能够更准确地对修复区域进行定位。特别是在有挑战性的DeepFillV2数据集和Diffusion数据集上,所提出的BAFNet分别取得了91.37%和82.34%的IoU分数,相比于主流的取证网络MVSS-Net, IoU指标分别提升了8.77%和10.46%。另外,综合多个实验结果,BAFNet在取证性能和模型复杂度之间取得了很好的平衡。
Abstract
To enhance the reliability of multimedia information and mitigate the negative impact of image forgery events on society, there is an urgent need to develop image inpainting forensics to detect and locate tampered regions of images. This paper proposes a bridge-type attention forensics network (BAFNet) for image inpainting. The network receives tampered images directly and outputs the tampered regions end-to-end. The network adopts an encoder-decoder architecture as the basic framework. Firstly, the encoder selects two backbones, Swin Transformer and RepVGG, to extract multi-domain inpainting features. Then, a bridge-type attention module is used to connect the same-level stages of the two backbones, enhancing the encoder’s modeling capability in both local and global dimensions. Finally, a semantic alignment fusion module is built between the encoder and the decoder to eliminate semantic inconsistencies between the features extracted by the two backbones, thereby improving the forensic performance of the network. Experimental results on different inpainting forensic datasets demonstrate that the proposed model, compared with other mainstream forensic models, can more accurately locate the inpainting areas. In particular, on the challenging DeepFillV2 dataset and Diffusion dataset, the proposed BAFNet achieves IoU scores of 91.37% and 82.34%, respectively, which improves the IoU metrics by 8.77% and 10.46% compared to the mainstream forensic network MVSS-Net. In addition, combining the results of several experiments, BAFNet achieves a good balance between forensic performance and model complexity.
随着图像编辑技术的快速发展,数字图像伪造的现象也越来越多[1-2]。例如:不法分子通过图像编辑技术伪造图像,误导各大媒体发布虚假新闻;一些人利用该技术制作虚假证据,误导法律机构以诽谤他人;此外,还有人使用图像编辑技术还原模糊图像,侵犯他人隐私等。近年来,人们越来越关注多媒体信息安全问题。对于开展检测并定位图像篡改区域的研究至关重要,越来越多的学者开始关注于图像篡改取证方向[3-5]。图像修复是一种常见且有效的图像编辑技术,其目的是通过图像已有的信息,以视觉上合理的方式移除某部分内容或者填充修补缺失区域[6]。由于图像修复具有强大的图像编辑能力,与其他一些图像篡改操纵相比(比如复制-粘贴、拼接等),修复过程更加复杂,修复痕迹更加隐蔽,因此对于该技术的取证也更加具有难度。
图像修复取证技术可以分为两类:一类是基于传统方法的图像修复取证;另一类则是基于深度学习的图像修复取证。传统修复取证方法[7-11]主要的思路是将图像按区域划分为图像块,然后对图像块提取不同层次的手工特征,进一步检测图像块之间的相似度来判断图像哪块区域被篡改过。这些基于传统手工特征的图像修复检测算法在一些方面存在一定的局限性,比如需要手动选择区域、只针对特定的图像修复技术、鲁棒性较差等。
近年来为提高检测效率和性能,增强算法的鲁棒性,基于深度学习的图像修复取证算法也在不断发展。起初的一些算法[12-14]将卷积神经网络(convolutional neural networks,CNN)引入图像修复取证,通过神经网络自动提取篡改痕迹,并对修复区域进行定位,但性能有待提高。后来的一些算法[15-18]针对图像修复问题的特点,先将篡改图像进行滤波预处理,将图像从RGB域转换到噪声域,使其暴露篡改痕迹,再针对这些痕迹设计神经网络以进行篡改区域的检测。为了进一步捕获更全面的修复特征,一些学者搭建了双流神经网络[19],同时从RGB域和噪声域提取特征,但对双流提取的特征只做了简单的通道拼接融合,取证性能仍有待提高。
通过总结现有的图像修复取证的研究现状,本文发现图像修复取证存在以下问题:1)大部分图像修复取证技术只从单域提取修复特征。从原始图像的RGB域提取修复特征,或者从滤波预处理图像的噪声域提取修复特征。这样的修复取证技术提取的修复特征单一,限制了取证性能。2)少部分图像修复取证技术从多域提取修复特征,即选择使用双流主干网络,同时在RGB域和噪声域提取修复特征,但是这些方法的双流主干网络是完全独立的,缺少双流之间的信息互补,限制了取证性能。3)图像修复取证网络在对多域特征融合时的方法过于简单,没有考虑到两个分支中的语义差异,缺少融合时的特征对齐,限制了取证性能。
针对当前图像修复取证中存在的不足之处,本文提出了一种面向图像修复的桥式注意力取证网络(bridge-type attention forensics network,BAFNet)。搭建了由双流主干网络组成的编码器,在并行的双流主干网络之间引入跨分支的桥式注意力模块,并在编码器和解码器的中间搭建了语义对齐融合模块。本文提出方案与其他主流取证模型相比,能够更准确地对修复区域进行定位,且具有良好的鲁棒性。
1 桥式注意力网络
1.1 网络的整体结构
图像修复取证任务可以看作一个语义分割问题。对于输入的待检测图像,通过判断其中的每个像素点是否被篡改过,进而检测出被篡改的区域,因此本文方法参考了语义分割的常用框架,也就是采用编码器-解码器架构作为基础框架。本文提出的网络结构如图1所示,除去编码器和解码器外,中间加入了语义对齐融合模块,用于对编码器提取的双域特征进行融合处理,再送入解码器生成预测结果图。具体来说,输入大小为256×256×3的图像,经过BAFNet后会得到256×256×2的输出,每个像素点两个通道的值分别代表该像素点未被篡改/被篡改的概率。
1.2 编码器设计
图像在被修复篡改的过程中,需要生成新的像素来填充图像中的缺失区域,而这些新的区域往往会留下一些视觉可见的线索,比如与真实区域的对比度差异以及纹理细节的差异,这些差异存在于图像的RGB域。另外,经已有研究发现,图像修复篡改中引入的新元素在噪声分布方面与真实区域不同[22],可以通过滤波器将图像转换到噪声域,提取噪声特征。图像修复取证不同于传统的语义对象检测,其更加关注篡改过程中留下的伪影而不是图像内容,因此需要编码器学习更丰富的特征。经过上述分析,本文设计了由双流主干网络组成的编码器,其中一流直接用原始RGB图像作为输入,提取与对比度、纹理相关的修复特征;另一流接收经过滤波器处理后的噪声图像,提取噪声相关的修复特征。

图1桥式注意力网络结构
Fig.1Architecture of bridge-type attention forensics network
如图1所示,编码器由双流主干网络组成,对于RGB流,篡改区域留下的纹理特征属于一种全局特征,需要提取图像的全局信息。考虑到Transformer善于长距离建模的优势,本文模型在RGB流选择使用Transformer从全局角度提取与修复特征相关的纹理细节。由于双流网络比传统的网络多一个主干网络,会引入加倍的计算开销,因此为了减少计算量,本文模型在RGB流选用Swin Transformer[23]的Tiny版本作为主干。该流共有4个阶段,对于256×256×3的输入图像,每个阶段的输出特征图大小分别为:64×64×96、32×32×192、16×16×384、8×8×768。
对于噪声流,需要先通过滤波器将原始RGB图像转换到噪声域。空域隐富模型(steganalysis rich model,SRM)[24]是一种用于数字图像隐写分析的高级模型,尤其擅长检测基于噪声的隐写方法。由于这个特点本文选用SRM来对图像进行滤波处理,经过SRM滤波后的图像可以暴露局部的噪声特征,这些特征更有利于网络去关注篡改留下的噪声信息,捕捉细节操纵伪影。如图2所示,本文模型采用文献[25]选取的3个SRM滤波核作为卷积核,输入256×256×3的RGB图像,映射得到同样尺寸的噪声域图像。考虑到卷积网络擅于检测局部细节的能力,可以从局部提取与修复特征相关的噪声信息,因此噪声流选用RepVGG[26]的B0版本作为主干,RepVGG具有简单高效的架构,在保证了高性能的同时,可以通过结构重参数化技术减少计算开销,更适用于复杂的双流网络。同时本文模型调整了RepVGG每个阶段的输出通道数,保证与Swin Transformer各阶段输出特征图的形状相同。

图2SRM滤波核
Fig.2SRM filter kernels
1.3 桥式注意力模块
编码器中的双流主干网络在提取特征的过程中是完全独立的,本文模型在设计时认为双流主干各阶段提取的特征并非完全无关,噪声特征和RGB域纹理特征均属于修复篡改过程中留下的异常特征,如果通过设计模块将其连接,可以起到互相指导的作用,减少随着分辨率降低引起的与篡改相关信息的浪费。注意力机制允许模型在处理特征时,聚焦于最相关的信息,因此本文模型设计了桥式注意力模块连接双流主干的同级阶段,通过注意力机制提取与篡改区域最密切的特征,补充另一条主干网络。另外,分析编码器所选取的两个主干的特点,Transformer更擅于远距离建模,因此Transformer的输出可以通过空间注意力的形式补充给卷积神经网络,进而帮助卷积神经网络感知特征图每个空间位置的重要性;卷积神经网络更擅于局部细节的检测,因此卷积神经网络的输出可以通过通道注意力的形式补充给Transformer,帮助Transformer感知局部空间中每个通道的重要性。本文认为,双流提取的特征对于修复取证任务的作用是对等的,因此设计了双向的桥式注意力模块,如果仅选用单向的空间注意力或者通道注意力,无法充分利用双流的特征,进而限制取证性能。
桥式注意力模块的结构如图3所示,Swin Transformer每个阶段的输出特征图将经过空间注意力获取空间位置上的权重,然后与RepVGG同级阶段的输出特征图相乘。记Swin Transformer第i个阶段的输出特征图为Ti,计算空间位置上的权重矩阵的过程为
(1)
式中: 为权重矩阵,σ(·)为Sigmoid函数,f7×7(·)为卷积核大小为7的卷积,[·]为通道拼接,AP(·)、MP(·)分别为通道维度的平均池化(average pooling,AP)和最大池化(max pooling,MP)。然后与RepVGG第i个阶段的输出特征图Ci相乘,该过程可表示为
(2)
式中为元素相乘,元素相乘过程中会将权重矩阵通过广播机制调整到与特征图维度相同。得到全局信息补充的特征图将作为RepVGG第i+1个阶段的输入。

图3桥式注意力模块结构
Fig.3Architecture of bridge-type attention module
RepVGG每个阶段的输出特征图将经过通道注意力获取局部空间各通道的重要性权重,然后与Swin Transformer同级阶段中第1个多头自注意力中生成v的特征向量相乘。首先计算通道维度的权重矩阵为
(3)
式中MLP(·)为多层感知机。记多头自注意力机制的输入为x∈RN×D,该输入是由输入特征图展平而来。x在通过线性层生成v之前,将先与权重矩阵Mc相乘,改进后的多头自注意力机制中生成q、k、v的计算过程分别为:
(4)
(5)
(6)
值得注意的是,为了减少计算量和模块复杂度,本文模型只改变了Swin Transformer每级阶段中的第1个多头自注意力。经过桥式注意力模块,可以将Transformer学习到的全局特征补充给卷积神经网络,增强卷积神经网络对于粗粒度特征的学习;并将卷积神经网络学习到的局部特征补充给Transformer,增强Transformer对于细粒度特征的学习。
1.4 语义对齐融合模块
已有双流主干网络对于两域信息的融合往往是采用简单的直接相加或者简单的通道维度拼接。这种融合方式忽略了两域中的语义差异,噪声域和RGB域特征的平等融合会导致语义的混乱,进而限制取证性能。基于这个考虑,本文设计了语义对齐融合模块。
语义对齐融合模块的结构如图4所示,其基本思路是对两域的特征进行加权平均。具体实现方案是对两域特征求和后先通过一种嵌入式通道注意力确定融合权重,然后使用该融合权重对两域特征进行加权融合。为了方便表示,记CNN流的输出特征为X,Transformer流的输出特征为Y,经过语义对齐融合模块的输出特征为Z,则该模块的计算过程可表示为
(7)
式中:ECA(X+Y)为计算得到的融合权重,ECA(·)为文献[27]所提出的嵌入式通道注意力。

图4语义对齐融合模块结构
Fig.4Architecture of semantic alignment fusion module
嵌入式通道注意力通过在卷积操作中引入通道注意力机制,以捕捉不同通道之间的关系。结构如图5所示,其实现机制如下:首先通过全局平均池化层,将形状为H×W×C的特征图压缩为1×1×C大小;然后计算自适应一维卷积的卷积核尺寸k,计算公式为
(8)
式中:b=1,γ=2,C为通道数,是将一个不是奇数的数值向上舍入为最接近的奇数。最后使用自适应一维卷积处理压缩后的特征并经过Sigmoid函数,得到大小为1×1×C的融合权重向量。

图5嵌入式通道注意力结构
Fig.5Architecture of embedded channel attention
选择嵌入式通道注意力作为融合权重的计算方式,可以让网络区分RGB域特征和噪声域特征各自关注的通道。语义对齐融合模块通过给特征分配不同权重来减少不同域特征在融合时引发的语义冲突,进而得到更有效的修复特征。
1.5 解码器设计
解码器的任务是将低分辨率的特征图恢复到原始分辨率,并生成像素级的分类结果。相较于编码器需要复杂的结构来提取输入图像的高级修复特征,解码器主要关注特征的空间重建和上采样,并不需要复杂的结构再对特征进行处理,因此解码器由卷积层和上采样层重复堆叠构成,结构见图1。具体来说,卷积层由卷积核大小为 3,步长为 1的卷积、BN层、ReLU激活函数组成,作用是将特征图的通道数减少1/2,上采样层对特征图进行双线性插值,将特征图的尺寸增加1倍。卷积层和上采样层重复堆叠5次,将通道维度的信息逐渐转换到空间维度,每次堆叠后的输出特征图大小分别为16×16×384、32×32×192、64×64×96、128×128×48、256×256×24。然后,经过一个卷积层调整特征图通道数为2,再经过Softmax分类层得到最终的预测结果。
1.6 损失函数
为了更好地训练取证网络,需要设置一个合理的损失函数来优化网络参数。本文将修复取证任务看成一个逐像素分类的语义分割问题。另外考虑到在修复取证任务中修复篡改区域往往只占图片的一小部分,也就是说篡改像素点(正样本)远少于未篡改像素点(负样本),因此为了防止训练过程由像素数量多的类别所主导,缓解图像中存在的类别不均衡问题,本文模型采用了加权交叉熵损失,对正样本和负样本的损失赋予不同的权重,具体公式为
(9)
式中:N为像素点的总个数,yi为第i个样本,正样本取1,负样本取0;pi为第i个样本被预测为正样本的概率,ω1、ω2分别为正样本和负样本的权重因子,本文在实验中取ω1=5,ω2=1。
2 结果与分析
为了评估BAFNet在修复取证任务上的性能,本文使用5种图像修复算法构建了5个修复取证数据集。随后,BAFNet在这些数据集上进行了训练和测试,并与一些典型的篡改取证方法进行了对比。此外,对于数据集采用了JPEG压缩、加噪的后处理操作,测试了网络的鲁棒性,最后进行了消融实验,验证了本文所提出的网络架构和组件的有效性。
2.1 数据集构建
本文在Place365[28]数据集上随机挑选了20 250张大小为256×256的RGB图像作为原始图像,Place365包含上百种场景类别,丰富的场景涵盖了图像篡改时可能涉及到的各种场景。图像修复算法可以大致分为:基于扩散的修复算法、基于样本的修复算法、基于深度学习的修复算法。为了更全面的评估本文提出的取证模型,在构建篡改数据集时要尽可能让数据集涵盖各类图像修复算法。具体来说,在修复篡改过程中,本文挑选了5种典型图像修复算法,其中,有3种是近年来提出的基于深度学习的图像修复方法,分别是DeepFillV2[29]、ICT[30]和Lama[31]。其余两种分别是基于扩散的修复方法Diffusion[32]和基于样本的修复方法Exemplar[33]。构建数据集时首先在图像上随机去除一部分区域,随机包括位置的随机、形状的随机(包括圆形、矩形和不规则形状)、大小的随机。考虑到基于扩散的修复算法更适合较小的缺失区域,本文将基于扩散的修复算法的缺失区域大小设置为0.10%、0.40%、1.56%、6.25%中的一种。其他方法的修复区域大小被设置为1.00%,5.00%,10.00%中的一种。然后使用上述5种不同的修复方法对图像进行修复,得到5个不同的数据集(后文将用这5种修复方法的名字或缩写命名对应数据集)。最后,将每个数据集分为3个部分:18 000张作为训练集,1 350张作为验证集和900张作为测试集。
2.2 训练细节
本文基于pytorch框架构建了桥式注意力取证网络,并在NVIDIA GeForce RTX 3090 GPU上进行了训练。输入大小设置为256×256×3,使用Adam优化器,批尺寸为24,初始学习率设为1×10-3,学习率采用余弦衰减。此外,为了防止网络过拟合,对图像进行了数据增强。数据增强包括随机水平或垂直翻转、随机方向旋转90°和JPEG压缩,JPEG压缩的质量因子在70~100之间随机选择。
为了与其他最先进的方法进行比较,本文选择了两种基于深度学习的修复取证方法,包括FCNet[12]、IID-Net[16]。此外还选择了两种通用图像取证方法,包括PSCC-Net[20]、MVSS-Net[22]。被比较的网络都严格按照对应论文中给出的训练程序和参数设置,加载预训练权重后并在本文的数据集上重新训练。
2.3 不同取证模型的定量比较
为了定量评估其他修复取证方法与本文所提出的方法,在5个数据集上对各个模型进行了训练和测试,并选择交并比(IoU)和F1分数作为评价指标。表1展示了每种取证方法的评估结果。
表1不同方案针对不同修复数据集的IoU和F1比较
Tab.1 Comparison of IoU and F1 of different methods for different inpainting datasets

由表1中结果可以直观看出,本文所提出的网络BAFNet在不同修复方法上制作的数据集上都取得了最佳的实验结果。比如在具有挑战性的取证数据集DeepFillV2和篡改区域面积较小的Diffusion数据集上,本文方法分别取得了91.37%和82.34%的IoU分数,比排在第2名的取证方法MVSS-Net提高了8.77%和10.46%。可以得出本文所提出的网络无论是面对基于深度学习修复方法制作的修复图像还是面对篡改区域较小的修复图像,相较于对比方案都有更显著的优势,尤其是相比于同样使用双流网络的MVSS-Net,这也侧面证明了本文所提出的桥式注意力模块和语义对齐模块的优越性。
2.4 不同取证模型的定性比较
为了与其他方法进行更全面的比较,本文还对不同取证模型进行了定性评价比较(见图6)。具体来说,展示了输入篡改图像(第1列)、篡改区域(第2列)以及不同取证方法(第3列~第7列)的检测结果。在前两行中展示了不同模型对于规则篡改区域的检测结果。虽然所有模型均可以对于篡改区域进行定位,但是与其他模型相比,本文模型可以准确地检测篡改区域的形状(圆形、正方形)。
在最后3行中展示了不同模型对于不规则篡改区域的检测结果。一般来说,不规则篡改区域的图像或者篡改区域面积小的图像对于取证任务是非常有挑战性的。但本文模型仍有不错的检测结果,比如图6中的第3行,不但可以定位到篡改区域,而且更好地拟合出了不规则的篡改边界。对于篡改面积特别小的图像,比如图6中后两行,部分对比方案出现了漏检的情况,而本文模型仍然检测出了篡改区域。并且与同样能检测出篡改区域的网络相比,具有更好的检测效果,形状方面更加拟合。可以看出对于不同情况下的篡改区域,BAFNet均有不错的取证效果。

图6可视化取证结果
Fig.6Visualization of forensics results
2.5 不同取证模型的鲁棒性比较
在实际应用中,一些恶意的图像篡改者可能会通过后处理操作处理篡改图像,以隐藏篡改痕迹、逃避取证检测,因此本文对不同取证模型进行了鲁棒性比较。具体来说,在DeepFillV2数据集上对图像分别采用JPEG图像压缩和添加加性高斯白噪声(additive white Gaussian noise,AWGN)。选取的JPEG压缩的质量因子(QF)分别为90、70,AWGN的信噪比(RSN)分别为50、40 dB。定量的评价结果见表2。
表2不同方案在经过后处理的DeepFillV2数据集上的IoU和F1比较
Tab.2 Comparison of IoU and F1 of different methods for the post-processed DeepFillV2 datasets

可以看出,随着压缩系数和信噪比的降低,所有模型的取证性能都有所下降,而本文方法仍然是取证性能最好的方法。在具有挑战性的DeepFillV2数据集上,当QF=90时,本文网络实现了88.25%的IoU,当QF=70时,本文网络实现了64.53%的IoU。当RSN=50 dB时,网络的IoU为91.02%,当RSN=40 dB时,网络的IoU为87.86%。相比其他的网络,本文模型性能下降更少,对于后处理图像的检测性能甚至高于其他网络对于没有后处理的图像的检测性能,证明了本文模型具有很强的抗后处理能力。
2.6 网络面对未知修复方法的取证性能
在实际情况中,篡改图像的修复方法往往是未知的,这就要求修复取证模型能适用于未知的修复方法,因此本文评估了网络面对未知修复方法的取证性能,结果见表3。具体来说,使用其中一种图像修复数据集训练模型,并使用其他图像修复数据集测试模型,即测试集中的修复方法对于模型训练是不可知的。值得注意的是,这个实验中没有选择Diffusion 数据集,这是因为Diffusion数据集中修复区域的面积很小,这与其他数据集产生了领域差异。从实验结果可以看出,本文模型面对未知的修复方法时仍能表现出优越的取证性能。其中,在DeepFillV2数据集上训练的模型在跨数据集评估中表现出最优越的性能,而在其他数据集上训练的模型在DeepFillV2数据集上的评估效果较差。经过推断,这是由于DeepFillV2数据集对于修复取证任务更具挑战性。
评估结果表明,本文模型不是简单地提取与图像内容相关的语义特征,而是提取与修复信息相关的高级特征。
表3BAFNet网络面对未知修复方法的IoU测试结果
Tab.3 IoU for BAFNet against unknown inapinting methods

2.7 消融研究
本文设计了5个模型进行消融实验,来对所提出模型中各个模块的有效性进行验证:1)编码器为RepVGG的单流网络(模型Ⅰ);2)编码器为Swin transformer的单流网络(模型Ⅱ);3)编码器为Swin transformer和RepVGG的双流网络,但没有桥式注意力模块,特征融合部分为简单的通道拼接(模型Ⅲ);4)编码器为Swin transformer和RepVGG的双流网络,双流中加入桥式注意力模块,语义融合部分为简单的通道拼接(模型Ⅳ);5)完整模型(模型Ⅴ)。5个模型在DeepFillV2数据集上的表现见表4,可以看出相较于模型Ⅰ和模型Ⅱ,使用双流网络从噪声域和RGB域同时提取修复特征的模型Ⅲ都有着超过1.50%的IoU性能提升。而加入桥式注意力模块的模型Ⅳ又有着1.89%的IoU性能提升,这证明了需要让双流网络在提取特征时进行信息互补。综合使用桥式注意力模块和语义对齐融合模块的完整模型Ⅴ又有1.21%的IoU性能提升,这说明将两域特征送入解码器前有必要进行特征对齐融合。综上所述,桥式注意力模块和语义对齐融合模块的引入,有效地提升了双流网络的取证性能。
表4在DeepFillV2数据集上的消融实验结果
Tab.4 Ablation results on DeepFillV2 datasets

注:“√”表示在该行所代表的模型中包含对应结构或模块。
2.8 模型复杂度分析
本文使用了模型参数量和计算量(floating point operations,FLOPs)两个指标,对本文提出的模型和对比方案进行了复杂度评估,输入图像的尺寸被设置为256×256×3,结果见表5。从表5中可以看出,BAFNet的计算量为18.44 GFLOPs,参数量为63.01 M。参数量高于单流网络,但远少于同为双流网络的MVSS-Net,计算量最少。这表明本文网络在参数数量和计算量适中的情况下达到了最优性能,但仍有可优化的空间。
表5模型的复杂度对比
Tab.5 Comparison of model complexity

3 结论
1)设计双流主干网络作为整体网络的编码器,可以同时从噪声域和RGB域提取修复特征,丰富用于取证的特征。在双流主干网络中间搭建桥式注意力模块,有利于双流主干网络提取的特征之间的信息互补。
2)在编码器和解码器中间搭建语义对齐融合模块,对双流特征进行特征对齐融合,有效避免了特征融合时造成的语义混乱。
3)在5种图像修复方法制作的数据集上进行的实验,证明了提出的模型相较于对比方案,有着更好的取证效果以及鲁棒性,在取证性能和模型复杂度之间取得了很好的平衡。