雾天条件下成像设备采集到的图像降质严重,影响高级计算机视觉任务的性能[1]。因此,图像去雾算法研究具有重要意义。现有的去雾算法主要分为两类:基于先验的方法和基于深度学习的方法。基于先验的方法构建雾天成像模型,利用先验知识估计模型中的参数反推出无雾图像。He等[2]提出暗通道先验理论,通过大气散射模型估计无雾图像; 黄鹤等[3]通过融合方法估计大气光值,能有效改善图像亮度;杨燕等[4]结合高斯优化对大气光幕进行约束,但其构造的函数模型适应性不强; Berman等[5]提出雾线先验理论估计透射率,以复原出无雾图像; Ju等[6]发现传统大气散射模型有局限性,导致复原结果偏暗,故引入光吸收系数,提出增强后的大气散射模型。但先验条件并不能适应所有场景,导致基于深度学习的方法成为目前研究的热点。Das等[7]构造多层补丁网络,通过逐级特征拼接的方式复原出无雾图像; Dong等[8]根据特征增强与误差反馈原理设计出基于U-net的多尺度特征增强去雾网络。虽然现有算法有一定的去雾效果,但在处理非均匀雾天图像时仍存在颜色失真和细节恢复不完整的问题。
针对以上问题,本文提出混合注意力与多特征交互的图像去雾算法。针对雾气分布不均匀的雾天图像,本文设计残差混合注意力,将非局部注意力与通道注意力结合, 达到自适应去雾目的; 针对颜色偏移与细节恢复不完整问题,构建多特征交互模块,充分利用不同尺度的特征图,以有效保留图像中的细节与颜色信息。
1 混合注意力与多特征交互的去雾算法本文构建的去雾网络整体结构见图 1。编码器从雾图中提取出3种不同尺度的特征,将其分别输入混合注意力模块以适应不同浓度下的雾气分布;在多特征交互模块中,经混合注意力模块处理后的3个尺度特征能够进行信息交换,并利用门控模块聚合不同尺度的有用信息;经过融合后的特征分别再次通过混合注意力模块,以增强去雾效果;再将3个尺度特征在高分辨率分支处进行门控融合,保留高分辨率特征中的颜色和细节信息;最后利用解码器输出无雾图像。
图 2为本文所设计的编解码器模块。编码器由3个卷积块构成,每个卷积块包含5个卷积层、2个残差连接和2个ReLu激活函数。后2个卷积块的最后1个卷积层步长为2,将特征图大小缩小一半; 其他卷积步长均为1,以生成3种不同尺度的特征图。利用多层卷积,网络能够提取到更深层次的特征,从而更好地表示复杂的非线性关系,残差结构防止浅层语义丢失,ReLu激活函数防止网络不收敛。解码器模块由5个卷积层、2个残差连接和2个ReLu激活函数组成,卷积步长均为1,以达到对齐特征图尺度的目的。
一幅图像中雾气的分布往往是不均匀的,通道注意力(channel attention, CA)[9]只能在局部图像上增加关注,无法在整幅图像的层面上对雾气进行估计,导致去雾不彻底。故本文提出混合注意力模块,见图 3。该模块由非局部注意力(non-local attention, NLA)[10]和CA组成。首先, 利用非局部注意力在整幅图像上估计雾气分布位置; 然后, 将其与通道注意力相乘,进一步增加注意力的有效性,以更好地适应不均匀的雾气分布; 最后, 加上残差结构防止丢失过多的原始特征信息。过程表达式为
$ \boldsymbol{F}_{\text {out }}=\boldsymbol{F}_{\mathrm{CA}} \otimes \boldsymbol{F}_{\mathrm{NLA}}+\boldsymbol{F} $ | (1) |
式中:Fout为输出特征图;FCA为通道注意力分支输出特征图;FNLA为非局部注意力分支输出特征图;F为输入特征图,其大小为C×H×W。
非局部注意力的数学表达式为
$ \boldsymbol{F}_{\mathrm{NLA}}=\frac{1}{S(\boldsymbol{F})} \sum\limits_{\forall j} f\left(\boldsymbol{F}_i, \boldsymbol{F}_j\right) g\left(\boldsymbol{F}_j\right) $ | (2) |
式中:i为前像素位置,j为对应的其他像素位置,1/S(F)为归一化操作,f(·)为像素i和j间的相似度,g(·)为F在j处的特征值。
式(2)对应的非局部注意力见图 4。首先, 利用3个并行的1×1卷积操作进行通道压缩,减小计算量,同时得到θ、ϕ和φ3个分支,其中θ和ϕ分支用于计算不同位置的相似度, φ分支用于计算输入特征图的特征矩阵,softmax进行归一化操作;其次, 将相似度矩阵与特征矩阵相乘用于施加注意力操作;然后, 利用1×1卷积恢复通道数;最后, 将非局部注意力添加到输入特征上以构造残差结构。
非局部注意力的优点是可以对不同像素点间位置信息建立依赖关系,从而获取全局特征信息,得到雾气位置分布,区别对待浓雾和薄雾区域,但缺点是无法学习获得有用的通道特征,而He等[2]研究证明了不同的雾浓度具有不同的通道分布,故利用通道注意力机制对非局部注意力进行增强,对不同的雾浓度分配通道权重。
通道注意力示意见图 5。首先使用squeeze操作(对应图中fsq(·),由全局平均池化操作实现)将一个特征图压缩为1×1×C;接下来利用excitation操作(对应图中的fex(·),由门控机制和激活函数实现)对每个通道C生成不同权重;最后是scale操作(对应图中的fsc(·)),将前面得到的注意力权重加权到每个通道的特征上。
编码器提取出的浅层高分辨率特征含有丰富的颜色和纹理信息,而深层的低分辨率特征含有丰富的语义特征[11-12],两种特征对于图像的复原都至关重要。若仅构造串行的神经网络,提取深层特征信息复原出的图像容易发生细节丢失以及颜色偏移现象。因此, 为了复原出视觉效果更好的无雾图像,本文引入了多特征交互模块,通过保持高分辨率特征中的颜色和细节信息,并允许跨并行流的信息交换,在低分辨率特征的帮助下整合高分辨率特征。
图 1中第2个虚线框内为多特征交互模块。在多特征交互模块中,输入3个大小依次减半的特征图L1、L2、L3,经混合注意力模块处理后,分别将其中一个特征与另外两个特征进行特征对齐。即利用双线性插值方法对特征进行上采样,利用不同的卷积核和步长执行下采样。此外,为有效聚合不同尺度特征,对不同尺度特征图进行交互融合。聚合后的特征包含了各个尺度丰富的特征信息,因此, 对其再一次使用残差混合注意力以增强去雾效果。最后,在高分辨率分支处再次对3个分支的特征进行门控融合,以保留高分辨率特征中的颜色和细节信息。
1.4 门控融合模块多尺度特征增强模块在聚合特征的过程中需要将3个经过尺度对齐后的特征进行融合,与以往使用元素求和或拼接的方法集成多层次特征不同,本文的关键思想是自适应地学习每个尺度上特征映射的融合空间权重,减小在特征融合中的信息损失以获得良好的聚合效果,故利用Chen等[13]提出的门控融合模块。首先, 将经过特征对齐后的3个特征图F1、F2和F3在通道维度进行特征拼接; 然后, 输入门控融合子网, 得到输出权重; 最后, 将输出权重与特征图进行加权融合, 得到最终输出特征图。具体的融合方法为
$ \left(w_1, w_2, w_3\right)=h\left(\boldsymbol{F}_1, \boldsymbol{F}_2, \boldsymbol{F}_3\right) $ | (3) |
$ \boldsymbol{F}_{\mathrm{u}}=w_1 \times \boldsymbol{F}_1+w_2 \times \boldsymbol{F}_2+w_3 \times \boldsymbol{F}_3 $ | (4) |
式中:h(·)为门控融合操作,利用一个3×3的卷积层即可实现;w1、w2和w3分别为3个特征图的对应权重;Fu为融合后最终输出特征图。
1.5 损失函数本文采用目前深度学习中应用最广泛的均方误差(MSE)损失函数,其具有梯度值随着误差减小而递减的特性,能帮助网络加速收敛。表达式为
$ $ | (5) |
式中:Igti为清晰图像,D(Ihazei)为经网络去雾后的图像,N为图像个数。
2 实验结果与分析 2.1 实验设置、数据集与对比算法实验在PyTorch框架下完成,使用NVIDIA 3060 GPU训练去雾网络;初始学习率设置为0.000 1,衰减率设置为0.1;使用Adam优化器进行优化,Batchsize设置为4;图像分辨率统一裁剪到512×512像素大小。
为了验证本文算法的去雾效果,选取了多种算法与其进行对比,具体包括:DCP[2]、AOD-net[14]、FFA-net[15]、SGID-net[16]、LKD-net[17]、DEA-net[18]。
本文采用RESIDE[19]中的训练集ITS和测试集SOTS、I-HAZE[20]、O-HAZE[21]和NH-HAZE[22]作为数据集。其中,ITS、I-HAZE和O-HAZE为均匀雾气的雾天数据集,I-HAZE和O-HAZE分别包含30对和45对雾天图像和真实图像,ITS包含13 990幅雾天图像和1 399幅真实图像; NH-HAZE为非均匀雾气的雾天数据集,包含120对的雾天图像和真实图像。I-HAZE、O-HAZE数据集中5对用于测试;NH-HAZE数据集中10对用于测试。
2.2 主观评价图 6为本文算法与其他算法在含天空区域真实图像上的复原图像对比。由图 6可看出:DCP算法虽然去雾效果较好,但是在天空区域存在明显的过饱和现象;AOD-net虽然去雾效果较好,但是其估计大气光偏大,导致复原出的图像偏暗;FFA-net在天空等远景区域存在明显雾气残留;SGID-net普遍存在去雾不彻底现象;LKD-net虽然去雾效果较好,但整体复原效果过饱和;DEA-net虽然在近景区域去雾效果较好,但在山体等中景区域雾气残留严重。
图 7为本文算法与其他算法在非天空区域真实图像上的复原图像对比。由图 7可看出:DCP算法全局大气光估计不准确,导致复原出的图像亮度不适宜;AOD-net构造轻量化网络联合估计透射率偏大,在浓雾区域去雾不彻底;FFA-net整体去雾不彻底, 且明显失真;SGID-net的参考图像引入清晰结果的同时也引入了雾气信息,导致图像去雾不彻底;LKD-net去雾效果较好,但是存在偏色现象;DEA-net虽然能够去雾,但是复原出的图像不自然。
图 8为本文算法与其他算法在I-HAZE数据集上的复原图像对比。由图 8可看出:DCP、AOD-net、SGID-net算法存在明显的去雾不彻底现象,且复原出的图像偏暗;FFA-net虽然去雾效果较好,但是复原出的图像偏白;LKD-net虽然能够去雾,但是复原出的图像中存在斑块;DEA-net虽然去雾效果较好,但设计网络的过程中没有考虑到细节信息的保留,导致复原出的图像细节信息丢失严重。
图 9为本文算法与其他算法在O-HAZE数据集上的复原图像对比。由图 9可看出:DCP和AOD-net算法虽然能够去雾,但是复原出的图像均偏暗;FFA-net和SGID-net复原出的图像颜色偏暗淡;LKD-net虽然有一定的去雾效果,但复原出的图像相较于真实图像偏白;DEA-net复原出的图像相较于真实图像偏亮,且细节信息丢失严重。
图 10为本文算法与其他算法在NH-HAZE数据集上的复原图像对比。由图 10可看出:DCP、AOD-net均存在去雾不彻底现象;FFA-net、SGID-net虽然能够去雾,但复原出的图像颜色偏移严重,存在失真现象;LKD-net在薄雾区域去雾效果较好,但在浓雾区域失真严重;DEA-net虽然能够去雾,但复原出的图像相对于真实图像偏暗;本文算法复原出的图像颜色与真实图像接近,且细节信息保留完整。
图 11为本文算法与其他算法在SOTS测试集上的复原图像对比。由图 11可看出:DCP算法恢复的图像偏暗;AOD-net存在去雾不彻底现象;FFA-net虽然在室内图像上复原出的图像清晰, 但对于室外图像的去雾效果较差;SGID-net去雾不彻底;LKD-net去雾效果较好,但复原出的图像整体存在偏色;DEA-net复原出的图像较好;本文算法恢复的图像在细节、颜色、亮度方面均取得了很好的效果。
为了体现本文算法在恢复图像细节上的优秀性能,进一步对复原结果做了局部放大处理。图 12为不同算法复原图像局部放大后图像对比。由图 12可看出:DCP算法估计的大气光偏大,导致复原出的图像偏暗,其局部放大图远景处细节较好,但近景处细节复原效果一般;AOD-net构造神经网络估计透射率,仍然依赖于大气散射模型,对大气光估计偏大,导致复原出的图像偏暗,细节恢复结果较为完整;FFA-net采用注意力机制构造去雾网络,虽然去雾效果良好,但没有考虑到不同尺度特征信息的保留,其复原出的图像局部放大后的细节和颜色信息保留明显不如本文算法优秀;SGID-net复原效果较好,但在画板处的颜色偏暗淡;LKD-net复原出的图像放大后的纹理细节较为清晰,但不如本文算法与真实图像接近,尤其在天空区域差距较为明显;DEA-net没有考虑到高分辨率特征的保留,导致复原出的图像在画板处颜色不够鲜艳,在远景处放大后的纹理细节并不清晰;本文算法复原出的图像经局部放大后细节保留完整,与真实图像最为接近。
本文采用峰值信噪比(peak signal to noise ratio,PSNR)和结构相似度(structural similarity index,SSIM)两个经典评价指标对算法性能进行评估。表 1为所选测试集在不同算法上的PSNR和SSIM均值。除FFA-net在I-HAZE测试集上的SSIM优于本文算法外,在其他数据集上,本文算法的PSNR与SSIM指标均优于其他算法,说明本文所提算法具有更好的去雾能力。
为了验证本文所设计模块的有效性,设计了4个消融实验。1)因为编码器的输出与解码器的输入特征图大小不一致,故对编码器的输出特征图进行了两次下采样,以此作为基本模型Model A;2)Model B在Model A中加入1次混合注意力模块;3)Model C在Model B中加入多特征交互模块,且消去解码器中的两次下采样, 多特征交互模块中的融合模块用加法代替;4)Model D在Model C中加入混合注意力模块;5)Model E(本文算法)在Model D中加入门控融合模块。
消融实验主观对比见图 13。由图 13可看出:没有混合注意力模块与多特征交互模块的Model A去雾不彻底,图像失真严重;加入1次混合注意力模块的Model B能够较好地去雾,但是颜色与真实图像偏差较大,且天空区域去雾存在失真现象,树干区域明显存在伪影;加入多特征交互模块的Model C去雾效果好,细节较为完整,复原出的图像与真实图像较为接近;加入混合注意力模块的Model D在第1张田野图片中远景处去雾更加彻底;加入门控融合模块的Model E复原出的图像与真实图像最为接近,颜色自然,细节结构清晰。
表 2为消融实验客观指标对比。可以看出:加入了混合注意力模块后的Model B和Model D提升了去雾性能,但是无法恢复出完整的细节信息;而加入多特征交互模块的Model C因为有效利用了不同尺度的特征信息,且以高分辨率特征作为输出,弥补了细节恢复不完整的缺点;加入了门控融合模块的Model E聚合不同尺度的特征信息,提高了复原的质量。
1) 本文提出了一种融合混合注意力机制与多特征交互的图像去雾算法。通过引入混合注意力模块和多特征交互模块,算法有效地解决了非均匀雾天图像去雾过程中多尺度特征利用不充分的问题。实验结果表明,本算法在主观视觉效果上能够产生颜色自然、细节丰富的去雾图像; 同时, 在客观评价指标上也取得了优于现有主流算法的性能,充分验证了算法的有效性。
2) 混合注意力模块的引入使得算法能够从全局角度感知图像的雾气分布,并针对不同雾浓度在通道上分配合理的权重。这一机制不仅增强了算法对复杂雾天环境的适应能力,还有助于提升去雾效果的整体一致性和稳定性。
3) 多特征交互模块的设计使得算法能够高效地实现不同尺度特征间的信息交互与融合。通过这一机制,算法得以充分利用低分辨率特征中的语义信息,同时保留高分辨率特征的空间细节与颜色信息。这种信息互补的方式进一步提升了去雾图像的整体质量和细节表现力。
4) 通过实验验证,本文提出的算法在多种场景下的雾天图像上均取得了良好的去雾效果。这一成果不仅为深度学习去雾领域提供了新的研究思路,也为实际应用场景中的图像去雾问题提供了有效的解决方案。
[1] |
贾童瑶, 卓力, 李嘉锋, 等. 基于深度学习的单幅图像去雾研究进展[J]. 电子学报, 2023, 51(1): 231. JIA Tongyao, ZHUO Li, LI Jiafeng, et al. Research advances on deep learning based single image dehazing[J]. Acta Electronica Sinica, 2023, 51(1): 231. DOI:10.12263/DZXB.20220838 |
[2] |
HE Kaiming, SUN Jian, TANG Xiaoou. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2341. DOI:10.1109/TPAMI.2010.168 |
[3] |
黄鹤, 李战一, 胡凯益, 等. 融合大气光值-图估计的无人机航拍图像去雾[J]. 哈尔滨工业大学学报, 2023, 55(5): 88. HUANG He, LI Zhanyi, HU Kaiyi, et al. UAV aerial image dehazing by fusion of atmospheric light value and graph estimation[J]. Journal of Harbin Institute of Technology, 2023, 55(5): 88. DOI:10.11918/202111001 |
[4] |
杨燕, 张金龙, 王蓉. 基于高斯凸优化与光幕双约束的退化场景复原[J]. 光学学报, 2021, 41(19): 133. YANG Yan, ZHANG Jinlong, WANG Rong. Degraded scene restoration based on gaussian convex optimization and double constraints of light curtain[J]. Acta Optica Sinica, 2021, 41(19): 133. DOI:10.3788/AOS202141.1910001 |
[5] |
BERMAN D, TREIBITZ T, AVIDAN S. Non-local image dehazing[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas: IEEE, 2016: 1674. DOI: 10.1109/CVPR.2016.185
|
[6] |
JU Mingye, DING Can, REN Wenqi, et al. IDE: image dehazing and exposure using an enhanced atmospheric scattering model[J]. IEEE Transactions on Image Processing, 2021, 30: 2180. DOI:10.1109/TIP.2021.3050643 |
[7] |
DAS D, DUTTA S. Fast deep multi-patch hierarchical network for nonhomogeneous image dehazing[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Seattle: IEEE, 2020: 1994. DOI: 10.1109/CVPRW50498.2020.00249
|
[8] |
DONG Hang, PAN Jinshan, LEI Xiang, et al. Multi-scale boosted dehazing network with dense feature fusion[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Seattle: IEEE, 2020, 2154. DOI: 10.1109/CVPR42600.2020.00223
|
[9] |
HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City: IEEE, 2018: 7132. DOI: 10.1109/CVPR.2018.00745
|
[10] |
WANG Xiaolong, ROSS G, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVFV Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City: IEEE, 2018: 7794. DOI: 10.1109/CVPR.2018.00813
|
[11] |
WANG Jingdong, SUN Ke, CHENG Tianheng, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3349. DOI:10.1109/TPAMI.2020.2983686 |
[12] |
CHENG Bowen, XIAO Bin, WANG Jingdong, et al. Higher HRNet: scale-sware representation learning for bottom-up human pose estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle: IEEE, 2020: 5385. DOI: 10.1109/CVPR42600.2020.00543
|
[13] |
CHEN Dongdong, HE Mingming, FAN Qiangnan, et al. Gated context aggregation network for image dehazing and deraining[C]//2019 IEEE Winter Conference on Applications of Computer Vision(WACV). Waikoloa: IEEE, 2019: 1375. DOI: 10.1109/WACV.2019.00151
|
[14] |
LI Boyi, PENG Xiulian, WANG Zhangyang, et al. AOD-net: all-in-one dehazing network[C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice: IEEE, 2017: 4780. DOI: 10.1109/ICCV.2017.511
|
[15] |
QIN Xu, WANG Zhilin, BAI Yuanchao, et al. FFA-net: feature fusion attention network for single image dehazing[C]//2020 AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 11908. DOI: 10.48550/arXiv.1911.07559
|
[16] |
BAI Haoran, PAN Jinshan, XIANG Xinguang, et al. Self-guided image dehazing using progressive feature fusion[J]. IEEE Transactions on Image Processing, 2022, 31: 1217. DOI:10.1109/TIP.2022.3140609 |
[17] |
LUO Pingjun, Xiao Guoqiang, GAO Xinbo, et al. LKD-net: large kernel convolution network for single image dehazing[C]//2023 IEEE International Conference on Multimedia and Expo. Brisbane: IEEE, 2023: 1601. DOI: 10.1109/ICME55011.2023.00276
|
[18] |
CHEN Zixuan, HE Zewei, LU Zheming. DEA-net: single image dehazing based on detail-enhanced convolution and content-guided attention[J]. IEEE Transactions on Image Processing, 2024, 33: 1002. DOI:10.1109/TIP.2024.3354108 |
[19] |
LI Boyi, REN Wenqi, FU Dengpan, et al. Benchmarking single-image dehazing and beyond[J]. IEEE Transactions on Image Processing, 2019, 28(1): 492. DOI:10.1109/TIP.2018.2867951 |
[20] |
ANCUTI C O, ANCUTI C, TIMOFTE R, et al. I-HAZE: a dehazing benchmark with real hazy and haze-free indoor images[C]//2018 ACIVS International Conference on Advanced Concepts for Intelligent Vision Systems. Poitiers: Springer, 2018: 620. DOI: 10.1007/978-3-030-01449-0_52
|
[21] |
ANCUTI C O, ANCUTI C, TIMOFTE R, et al. O-HAZE: a dehazing benchmark with real hazy and haze-free outdoor images[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Salt Lake City: IEEE, 2018: 867. DOI: 10.1109/CVPRW.2018.00119
|
[22] |
ANCUTI C O, ANCUTI C, VASLUIANU F, et al. NTIRE 2023 HR nonhomogeneous dehazing challenge report[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Vancouver: IEEE, 2023: 1808. DOI: 10.1109/CVPRW59228.2023.00180
|