2. 国家海洋局南海调查技术中心, 广州 510300;
3. 自然资源部海洋环境探测技术与应用重点实验室, 广州 510300
2. South China Sea Marine Survey and Technology Center, Guangzhou 510300, China;
3. Key Laboratory of Marine Environmental Survey Technology and Application, Ministry of Natural Resources, Guangzhou 510300, China
随着水上监控的广泛普及,基于计算机视觉的水面目标检测方法有助于及时发现航道和码头附近的可疑目标, 及时对该水域进行预警,这有助于提高水上管理效率并降低人力成本。传统的水面目标检测方法大多以背景建模为主[1-2],这些方法在光线变化、目标静止和密集等场景下很容易产生错误的检测结果, 而且难以对检测到的目标类别进行有效的分类。
当前,深度学习利用其强大的学习能力,极大地提高目标检测的性能,并逐渐成为目标检测中的主流范式[3]。其中,Ren等[4]提出区域提议网络生成可学习的目标候选区域并实现两阶段目标检测的端到端训练。王言鹏等[5]提出单次多框检测器算法提高对波浪和岸边树叶等背景因素的检测鲁棒性。然而,基于深度学习的检测模型拥有大量的可训练参数,以全监督方式有效地训练检测模型需要依赖大量的标注数据[6]。在水面目标检测中,由于目标类别的多样性和场景复杂性,人工进行大量多样性的样本标注是非常耗时且成本昂贵。
为了有效利用无标注样本和有限的标注样本,本文在之前的工作中提出了CCAR(class-coordinate adversarial regularization)来实现半监督船舶检测, 检测性能比同等条件下的全监督方式有所提高[7]。Jeong等[8]提出一种基于一致性正则化的目标检测方法来使检测模型学习翻转不变性的特征,然而这些特征对光照变化等场景仍然存在泛化能力不足的问题。Sohn等[9]提出一种通过自训练、样本增强和一致性正则化进行目标检测的半监督学习框架。该方法首先在标注样本上对检测模型进行预训练,接着为未标注样本生成伪标签,并进行样本增强和一致性正则化来重新训练检测模型,但是该方法依赖于鲁棒性强的检测模型来生成高质量的伪标签。然而,上述半监督检测方法在检测模型陷入过拟合时,难以在无标注样本中提取有效的目标,导致检测性能进一步下降。
针对半监督目标检测存在的问题,本文提出一种基于多视图交叉一致性学习的半监督水面目标检测算法。本文算法的核心思想是通过学习互补信息提高特征的判别性从而降低模型的过拟合风险[10-11],该方法首先提出了交叉一致性正则化,通过数据增强为每个样本生成多个视图以产生互补信息,并使同一样本的不同视图的输出与其监督信息进行交叉学习,提高所学习特征的可分性和降低过拟合风险;其次提出多视图目标判别器,通过最优传输和多视图集成的方式分别为无标注样本在线生成分类伪标签和回归伪标签作为监督信息,有效地提高对无标注样本的利用,从而提高半监督检测模型的检测性能。
1 基于多视图交叉一致性学习的半监督水面目标检测算法在半监督水面目标检测任务中,训练数据由标注数据集DL={(diL, gi)|i=1, …, NL}和无标注数据集DU={diU|i=1, …, NU}组成,其中,diL和diU分别为输入图像,且标注数据集和无标注数据集中的目标类别标签一致。因此,本文的目的是联合有限的标注数据集和大量的无标注数据集来提升检测模型的水面目标检测性能。
本文提出的基于多视图交叉一致性学习的半监督水面目标检测的模型结构如图 1所示,检测网络采用基于残差网络Resnet50[12]作为特征提取器的Faster R-CNN[4]实现二级的检测过程,并将检测问题转化为分类与回归问题。对检测网络输入一个原图像d*(*为标注L或无标注U)和其数据增强的图像T(d*),利用检测网络分别进行特征提取并得到候选区域。为了实现交叉一致性正则化,通过候选区域的匹配以保证同一候选区域的不同视图一一对应,并使无标注样本的多视图与其监督信息进行交叉学习。针对标注样本,检测网络计算其输出与其标签的监督损失;针对无标注样本,其监督信息是通过多视图目标判别器根据检测网络的输出生成的分类和回归伪标签,其中,分类伪标签通过最优传输理论缓解检测模型的有偏预测[13],回归伪标签则通过集成多视图信息提高无标注样本中目标的定位精度。
为了利用有限的标注样本和大量的无标注样本实现半监督训练,本文基于多视图交叉一致性学习的水面目标检测算法将检测任务分解为分类与回归任务,并提出交叉一致性正则化利用无标注样本来提高检测模型在复杂多变的水面环境下的检测性能,其目标函数为
$ L\left(d^{\mathrm{L}}, d^{\mathrm{U}}, \theta\right)=L_1\left(d^{\mathrm{L}}, \theta\right)+\lambda R_{\mathrm{M}}\left(d^{\mathrm{U}}, T, \theta\right) $ | (1) |
式中:dL、dU分别为标注样本和无标注样本,θ为检测网络的训练参数,L1(dL, θ)为监督损失项,RM(dU, T, θ)为交叉一致性正则项,T为数据增强变换,λ为权衡监督损失项和多视图交叉一致性正则项的超参数。为了简便起见,后续的公式表达将省略θ。
1.1.1 候选区域匹配在二阶段的检测过程中,检测网络先利用RPN(region proposal network)分别将原图像d*数据增强图像T(d*)根据锚框滑动顺序提取标签为1的候选区域集合R(d*)和R(T(d*))并记录这些候选区域的索引号。由于索引号与特征图的锚点顺序存在固定的映射关系,对这些索引号集合进行并集计算即可得到d*和T(d*)位置匹配的候选区域集合
交叉一致性正则化包括类别交叉一致性正则化和回归交叉一致性正则化。结合无标注样本匹配后的候选区域
$ {R_{\rm{M}}}\left( {{d^{\rm{U}}}, T} \right) = \frac{1}{{\left| {{{\mathit{\boldsymbol{\widetilde R}}}^{\rm{U}}}} \right|}}\sum\limits_{v \in {{\mathit{\boldsymbol{\widetilde R}}}^U}} {\left( {{R_{\rm{c}}}(v, T) + {R_{\rm{r}}}(v, T)} \right)} $ | (2) |
式中:
对于类别交叉一致性正则化,由于同一目标的不同视图具有相同的语义信息,因此,使同一样本的不同视图所提取到的特征互相预测它们的类别输出,可以提高检测模型特征提取的泛化性,降低过拟合风险[14]。类别交叉一致性正则化的表达式为
$ R_{\mathrm{c}}(v, T)=\frac{1}{N_{\mathrm{T}}\left(N_{\mathrm{T}}+1\right)} \sum\limits_{j=0}^{N_{\mathrm{T}}} \sum\limits_{k=0}^{N_{\mathrm{T}}}[j \neq k] f_{\mathrm{c}}\left(T_j(v), \hat{g}^k\right) $ | (3) |
式中:NT为数据增强变换的次数,Tj为候选区域对应的第j种数据增强,
$ f_{\mathrm{c}}(v, g)=-\sum\limits_m p^m\left(g_{\mathrm{c}}\right) \log p^m\left(v_{\mathrm{c}}\right) $ | (4) |
式中:pm(gc)为标签g的第m个类别概率,pm(vc)为候选区域v的第m个类别概率。
与类别交叉一致性正则化同理,对于回归交叉一致性正则化,同一目标根据数据增强反变换T-1将一个视图的回归输出映射到原图像的视图,并互相预测其回归输出,可以提高检测模型在回归预测中对扰动的鲁棒性。回归交叉一致性正则化的表达式为
$ R_{\mathrm{r}}(v, T)=\frac{1}{N_{\mathrm{T}}\left(N_{\mathrm{T}}+1\right)} \sum\limits_{j=0}^{N_{\mathrm{T}}} \sum\limits_{k=0}^{N_{\mathrm{T}}}[j \neq k] f_{\mathrm{r}}\left(v, T_k^{-1}\left(\hat{g}_{\mathrm{r}}^k\right)\right) $ | (5) |
式中:
本文采用Faster RCNN[4]的二级检测网络,其监督损失项包括RPN和RCNN两部分,因此,监督损失函数的表达式为
$ L_1\left(d^{\mathrm{L}}\right)=L_2\left(d^{\mathrm{L}}\right)+L_3\left(d^{\mathrm{L}}\right) $ | (6) |
式中:L2(dL)为RPN的监督损失,L3(dL)为RCNN的监督损失。这两个监督损失都通过交叉熵函数和Smooth-L1函数分别计算它们的分类损失和回归损失。
1.2 多视图目标判别器由于利用有限标注样本训练的模型对无标注样本进行伪标注是一种有偏估计,利用存在偏差的伪标注进行迭代训练容易加剧其模型的错误预测。本文提出多视图目标判别器,通过加入约束条件减小分类伪标签和回归伪标签的偏差。
1.2.1 分类伪标签当前,分类损失一般使用交叉熵函数计算,利用检测网络将一个批次中的无标注样本生成N1个候选区域v,其对应的伪标签为
$ E(\boldsymbol{v}, \hat{\boldsymbol{g}})=-\frac{1}{N_1} \sum\limits_i \sum\limits_m p^m\left(\hat{\boldsymbol{g}}_{\mathrm{c}}^i\right) \log p^m\left(\boldsymbol{v}_{\mathrm{c}}^i\right)-\alpha L_{\mathrm{e}}\left(\hat{\boldsymbol{g}}_{\mathrm{c}}\right) $ | (7) |
式中:
$ L_{\mathrm{e}}\left(\hat{\boldsymbol{g}}_{\mathrm{c}}\right)=-\frac{1}{N_1} \sum\limits_i \sum\limits_m p^m\left(\hat{\boldsymbol{g}}_{\mathrm{c}}^i\right) \log p^m\left(\hat{\boldsymbol{g}}_{\mathrm{c}}^i\right) $ | (8) |
最小化
$ \left\{\begin{array}{l} \hat{\boldsymbol{g}}=\underset{\hat{\boldsymbol{g}} \in \bf{R}_{+}}{\operatorname{argmin}} E(\boldsymbol{v}, \hat{\boldsymbol{g}}) \\ \text { s. t. } p\left(\boldsymbol{v}^i\right)=1 / N_1, p\left(\hat{\boldsymbol{g}}^i\right)=1 / M \end{array}\right. $ | (9) |
回归损失用于进一步优化候选区域的位置,其回归的目标值是候选区域坐标值与其有最大交并比的标注框坐标值的4个变换系数[4]。该回归变换表达式为:
$ \begin{array}{cc} t_x=\left(x-x_{\mathrm{g}}\right) / w_{\mathrm{g}}, & t_y=\left(y-y_{\mathrm{g}}\right) / h_{\mathrm{g}} \\ t_w=\log \left(w / w_{\mathrm{g}}\right), & t_h=\log \left(h / h_{\mathrm{g}}\right) \end{array} $ | (10) |
式中:tx、ty、tw、th分别为中心坐标、宽和高的回归目标值,x、y、w、h分别为候选区域的中心坐标、宽和高,下标g为标注框。
若利用检测网络预测的回归输出作为无标注候选区域的回归伪标签,这在后续的训练中是无法使检测网络学习到新的信息。因此,本文通过数据增强反变换集成多视图的回归伪标签,从而增加可学习的信息,降低回归伪标签的偏差。对于一个候选区域v的回归伪标签与真实标签的偏差表达式为
$ e=\left|\frac{1}{N_{\mathrm{T}}} \sum\limits_{j=0}^{N_{\mathrm{T}}} T_j^{-1}\left(v_{\mathrm{r}}^j\right)-g_{\mathrm{r}}\right| $ | (11) |
式中:vrj为候选区域第j个视图的回归伪标签,Tj-1(vrj)为目标候选区域第j个视图映射到原图像的回归输出。
设原图像的回归伪标签为
本文所提的基于多视图交叉一致性学习的半监督水面目标检测算法主要解决在半监督学习过程中, 由于检测模型对有限标注样本过拟合导致无标注样本产生错误伪标签而提取无效目标的问题。该算法对标注样本和无标注样本进行数据增强并结合交叉一致性正则化,提高检测模型对遮挡、光照变化等场景的鲁棒性从而降低过拟合风险。在无标注样本的处理上,提出多视图目标判别器通过最优传输和集成的方式,在线更新它们的伪标签信息,从而提高检测模型的检测性能。该算法通过随机梯度下降法[16]的训练方式最小化式(1)的目标函数,其训练过程如图 2所示。
为了验证文中提出的基于多视图交叉一致性学习的半监督水面目标检测算法的性能,采用海上和内河的数据集Singapore Maritime Dataset (SMD)[1]和SeaShips(SS)[17]来构成大型的半监督水面目标数据集。文中选取SMD数据集9 980张图像,包括大型轮船、帆船、皮艇、浮标、渡船、小船、快艇和其他等8种水面目标类别,样本特点是背景简单、尺度变化、密集遮挡和光照变化等;SS数据集由7 000张图片组成,包括运砂船、渔船、杂货船、集装箱船、散货船、客船等6种类别,样本特点是背景复杂、光照变化和目标数较少等。文中以4∶ 1的比例对两个公开数据集分别划分训练集和测试集。训练集总数达到13 584,其中包括4 528个标注样本合9 056个无标注样本,测试集总数为3 396。
2.2 实验条件及评价指标本文方法的实验采用编程语言为Python3.6, 深度学习框架为Pytorch1.7.1, CPU为Intel(R)Core(TM)i9-10900X主频3.70 GHz, 内存为64 GB, 显卡为NVIDIA Quadro M6000,显存为12 GB。
本文方法的参数设置情况:通过实验发现,当式(1)的λ≤0.1能达到较好的检测性能,但λ太小不利于训练收敛,因此λ=0.1;同理,式(7)的α=0.1;学习率为0.001;训练批次设置为4,包括一个标注样本和一个无标注样本,以及它们对应的数据增强样本;数据增强变换T在以下5种中随机切换:颜色抖动、高斯噪声、随机遮挡、旋转和缩放;迭代轮次为30;为了减少GPU内存的占用,在训练阶段,图像输入尺寸调整为600×1 067,各样本的候选区域随机保留128个,其中前景目标数与背景目标数比例为1∶ 3,因此NR =32,在检测模型推理阶段,则选择候选区域置信度最高的128个。
本文的评价指标有: 1)类间类内距离的比值,评估特征聚类性能;2)mAP(mean average precision),评估水面目标检测精度;3)帧率(Frame per second, FPS),评估水面目标检测实时性。
2.3 所提算法的有效性验证实验为了验证所提算法能够通过多视图交叉一致性学习能够有效提高特征的判别性和降低过拟合风险,本文通过特征的类间类内距离的比值以及特征的降维可视化对水面目标检测性能进行评估。该实验将测试集中的样本输入已训练好的检测模型中,输出各候选区域的特征向量并将其赋予与标注框交并比大于0.5的类别标签。
图 3为特征可分性与检测性能的关系图,其中不同的曲线代表不同的数据集。可以看出,随着训练轮次的增加,图 3(a)中的特征类间类内距离比呈现增长的趋势,与之对应的图 3(b)中的mAP值也在增长。当训练轮次 < 10时,检测模型快速地学习样本的简单信息,3条曲线的特征类间类内距离比和mAP同时快速地增长。在10 < 训练轮次 < 20时,检测模型不断地调整特征的提取方式以更好地提高泛化性,导致特征类间类内距离比开始波动式地增长。
在训练轮次>20后,检测模型在困难样本中尝试调整参数,导致特征类间类内距离比值小范围波动,此时检测模型的mAP趋于收敛。结合图 3(a)、3(b)可以进一步分析,极大化特征的类间距离而最小化类内距离有助于提高特征的判别性并降低过拟合风险,从而提高检测模型的检测性能。
图 4为通过t-SNE降维的特征可视化图,其中图 4(a)为全监督算法[4]所生成的特征可视图,图 4(b)为本文所提算法所生成的特征可视图。可以看出,图 4(a)由于一些类别簇与其他类别簇存在大面积的混合,在特征空间的决策边界很容易产生大量误判。当这种情况发生在半监督学习的时候,无标注样本会由于错误的预测,而扩大错误的决策边界,导致检测模型的检测性能下降。图 4(b)通过多视图交叉一致性学习,使检测模型学习到判别性,减少特征空间中不同类别簇的混合,有助于提高半监督目标检测的性能。
本文提出基于多视图交叉一致性学习的半监督水面目标检测算法,利用交叉一致性正则化使检测网络通过互补信息学习判别性的特征,并通过多视图目标判别器在线生成伪标签,有效地利用无标注样本进行半监督水面目标检测。为了进一步验证该算法的有效, 文中与其他4种方法进行对比实验, 包括全监督学习方法[4]和半监督学习方法[7-9]。同时,文中将交叉一致性正则化同时应用在标注样本和无标注样本上,其实验通过上标“L, U”进行标识。
表 1、2分别为不同算法在SS测试集和SMD测试集下的mAP。可以看出, 文中所提算法在内河和海上的测试集中均获得最高的mAP值,分别为95.5%和87.7%。而将标注样本也输入到交叉一致性正则化中可以进一步降低标注样本的过拟合风险,提高SS和SMD测试集的mAP值,分别为95.7%和88.0%。全监督学习算法仅能利用标注样本的信息,其mAP值最低,分别为80.7%和66.1%。半监督学习方法利用了无标注样本的信息,均不同程度地对mAP有所提高。其中,CCAR[7]通过类别坐标一致性正则化使半监督水面目标检测的mAP值分别为84.2%和77.4%;Jeong等[8]使用Single-Shot-Detector的网络结构一定程度上提高了小船等小目标的检测精度,它在两个测试集中的mAP值分别为86.7%和80.2%。Sohn等[9]通过离线伪标注的形式获得mAP值分别为92.1%和83.6%。表 3为不同方法在两个测试集中的综合检测性能。可以看到,本文算法帧率为13.1,基本满足实时性的要求。本文算法的mAP整体上比全监督学习算法高18.7%,说明无标注样本的有效利用可以极大提高检测的精度。本文算法的mAP整体上比其他半监督算法[7-9]分别高10.7%、8.0%和3.8%,说明多视图交叉一致性学习能够结合多视图的信息提高检测模型的特征判别性,并利用目标判别器在线不断更新伪标签信息,提高半监督水面目标检测的性能。值得注意的是,标注样本和无标注样本共同进行交叉一致性正则化可以进一步降低模型的过拟合风险并提高对无标注样本的有效利用,然而标注样本的优化主要受监督损失的影响,因此对mAP贡献的幅度不会太大。
图 5为所提算法在光照变化、模糊、尺度变化和遮挡等复杂场景中的船舶检测结果图。可以看到, 在光照变化和模糊场景中, 所提算法依然具备良好的检测性能。在尺度变化场景中,图 5(3-a)图片来自SS数据集, 所提算法通过多视图交叉一致性学习能够该样本集中未标注的“快艇”类别。同样地,在遮挡场景中, 图 5(4-a)中展示了文中模型能够检测到该样本所在的SS数据集中未标注的“浮标”类别。这进一步说明了本文所提算法能够有效地降低检测模型的过拟合风险,并提高对水面目标的判别性能。
1) 为了降低检测模型的过拟合风险和提高无标注样本的目标提取准确性,本文提出一种多视图交叉一致性学习的半监督水面目标检测算法,通过所提的交叉一致性正则化和多视图目标判别器来分别提高所学习特征的判别性和在线伪标签的准确性。
2) 在SS和SMD数据集上分别取得95.5%和87.7%的mAP值,优于基准的全监督检测算法和其他半监督检测算法,并且检测帧率达到13.1,基本满足实时性要求。
3) 在与训练样本不相似的场景中,如利用地面采集的训练样本对空中采集的样本进行测试,本文算法的检测性能将下降。在未来工作中,将研究如何结合迁移学习中的域自适应方法,提高检测模型的泛化能力,进一步提高对无标注样本的有效利用。
[1] |
PRASAD D K, RAJAN D, RACHMAWATI L, et al. Video processing from electro-optical sensors for object detection and tracking in a maritime environment: A survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(8): 1993. DOI:10.1109/TITS.2016.2634580 |
[2] |
PRASAD D K, PRASATH C K, RAJAN D, et al. Object Detection in a maritime environment: Performance evaluation of background subtraction methods[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(5): 1787. DOI:10.1109/TITS.2018.2836399 |
[3] |
WU Xiongwei, SAHOO D, HOI S C H. Recent advances in deep learning for object detection[J]. Neurocomputing, 2020, 396: 39. DOI:10.1016/j.neucom.2020.01.085 |
[4] |
REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137. DOI:10.1109/TPAMI.2016.2577031 |
[5] |
王言鹏, 杨飏, 姚远. 用于内河船舶目标检测的单次多框检测器算法[J]. 哈尔滨工程大学学报, 2019, 40(7): 1258. WANG Yanpeng, YANG Yang, YAO Yuan. Single shot multibox detector for ships detection in inland waterway[J]. Journal of Harbin Engineering University, 2019, 40(7): 1258. DOI:10.11990/jheu.201805057 |
[6] |
OLIVER A, ODENA A, RAFFEL C, et al. Realistic evaluation of deep semi-supervised learning algorithms[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal: MIT Press, 2018: 3239. DOI: 10.5555/3327144.3327244
|
[7] |
FENG Junjian, LI Bin, TIAN Lianfang. Semi-supervised learning for ship detection based on class-coordinate adversarial regularization[M]//Developments of Artificial Intelligence Technologies in Computation and Robotics. Cologne: WORLD SCIENTIFIC, 2020: 882. DOI: 10.1142/9789811223334_0106
|
[8] |
JEONG J, LEE S, KIM J, et al. Consistency-based semi-supervised learning for object detection[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver: MIT Press, 2019: 10758. DOI: 10.5555/3454287.3455252
|
[9] |
SOHN K, ZHANG Zizhao, LI Chunliang, et al. A simple semi-supervised learning framework for object detection[J]. arXiv, 2020: 1. DOI: 10.48550/arXiv.2005.04757
|
[10] |
FINI E, SANGINETO E, LATHUILIÈRE S, et al. A unified objective for novel class discovery[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC: IEEE, 2021: 9284. DOI: 10.1109/ICCV48922.2021.00915
|
[11] |
LI Yingming, YANG Ming, ZHANG Zhongfei. A survey of multi-view representation learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(10): 1863. DOI:10.1109/TKDE.2018.2872063 |
[12] |
HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Las Vegas Nevada: IEEE, 2016: 770. DOI: 10.1109/CVPR.2016.90
|
[13] |
ASANO Y M, RUPPRECHT C, VEDALDI A. Self-labelling via simultaneous clustering and representation learning[C]//Proceedings of the International Conference on Learning Representations. Addis Ababa: OpenReview. net, 2020: 1
|
[14] |
CARON M, MISRA I, MAIRAL J, et al. Unsupervised learning of visual features by contrasting cluster assignments[C]//Proceedings of the 34th Conference on Neural Information Processing Systems. Virtual: Curran Associates Inc., 2020: 9912
|
[15] |
CUTURI M. Sinkhorn distances: Lightspeed Computation of Optimal Transport[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Nevada: Curran Associates Inc., 2013: 2292. DOI: 10.5555/2999792.2999868
|
[16] |
LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient descent with warm restarts[C]//Published as a Conference Paper at ICLR 2017. Toulon: OpenReview. net, 2017: 1
|
[17] |
SHAO Zhenfeng, WU Wenjing, WANG Zhongyuan, et al. SeaShips: A large-scale precisely annotated dataset for ship detection[J]. IEEE Transactions on Multimedia, 2018, 20(10): 2593. DOI:10.1109/TMM.2018.2865686 |