2. 天津大学期刊中心, 天津 300072
2. Academic Journal Publishing Center, Tianjin University, Tianjin 300072, China
目标检测是计算机视觉和图像分析领域非常重要的任务,旨在定位和识别图像内的特定目标.现阶段研究中,基于机器学习的目标检测效果最好,但是需要大量的训练样本,训练过程也很耗时,并不适用于所有的检测任务[1].而模板匹配的方法简单,适应性强,能够处理复杂场景并且不用进行额外的训练,越来越被广泛使用[2-3],模板匹配是指用事先定义好的模板在图像中搜索从而找到匹配目标的一种高级的机器视觉技术.
本文的研究重点是复杂背景的图像中的目标检测,是指图像中的目标除了受到尺度变化,光照影响等类内变化之外,图像的背景中也会含有杂乱的无关场景,目标在图像中出现的区域定位一般是不确定的.基于形状的模板匹配技术由于能够在目标类内变化的情况下仍得到较好的匹配结果而吸引了研究者的注意[4-6].Ferrari等[7]建立了一个由K个接近直线的轮廓段组成的网络,可以呈现尺度不变的局部形状特征.但该算法所提取的轮廓片段不连贯会导致形状特征不够准确.Nguyen[8]提出了一种基于平均场的倒角模板匹配方法,但该方法没有很好地处理复杂背景.Wei等[9]则通过对轮廓线段的优化来减少背景边缘,可是处理流程仍然容易受到背景的影响.
然而,这些问题在目标检测中却是不可避免的,针对上述问题,本文提出了一种基于轮廓匹配的新型目标检测算法,算法结合了图像显著性检测和形状模板匹配的方法,显著性检测算法可以帮助定位目标所在区域,结合模板匹配算法实现目标检测,有效解决了在复杂背景下形状目标检测不准确、效率低的问题.
1 基于轮廓匹配的复杂背景中目标检测算法基于轮廓匹配的复杂背景中目标检测算法结合显著性检测和模板匹配,首先应用显著性检测算法对输入图像进行显著性预处理,之后在得的显著性区域内进行模板匹配,有效降低目标检测结果受背景的影响.轮廓匹配的第一步是对显著性区域图像进行边缘检测,但是边缘检测去噪声的同时削弱了边缘信息会导致初始边缘图像轮廓线段不完整;同时目标周围部分也可能产生一些与目标无关的轮廓段,因此本文通过边缘链接和轮廓线段筛选来对初始边缘图像进行优化.在轮廓匹配过程中,本文提出了一种新的形状描述子用来描述轮廓形状,实现边缘图像和模板轮廓的匹配,最终验证候选假设,完成目标检测任务.
1.1 显著性区域检测对人类视觉感知来说,显著性区域往往比背景具有更独特的颜色[10],因此可以利用颜色特征分离显著区域和背景,完成显著性区域检测.但是这种颜色特征的全局显著性区域检测的方法会受到图像的纹理影响而产生较高漏报率,本文中又提出基于相邻超像素距离特征的局部显著性检测方法,结合两种算法就实现更有效的显著性区域检测.
首先需要应用SLIC超像素[11]提取超像素的颜色特征[12-14]和位置特征,组合构建特征向量,然后利用超像素的特征向量判断其显著度,根据显著度进行分类,组成由前景区域,背景区域和未知区域组成的初始三元图.
单一颜色空间并不能完全对应人脑视觉颜色处理[15],因此本文将多种空间映射为一种高维空间,找到最佳颜色系数的线性组合,区分显著区域和背景.利用RGB,CIELab,色调,饱和度以及RGB空间的颜色渐变11个颜色通道,获得高维颜色转换矩阵K.然后通过三元图中的前景候选和背景候选颜色样本来估计颜色系数的最佳线性组合,以分离显著区域颜色和背景颜色,可以表述为l2正则化最小二乘问题
$ \mathop {\min }\limits_\alpha \left\| {\left( {\mathit{\boldsymbol{U}} - \mathit{\boldsymbol{\tilde K}}\alpha } \right)} \right\|_2^2 + \lambda \left\| \alpha \right\|_2^2. $ | (1) |
式中:
$ \mathit{\boldsymbol{\tilde K}} = \left[ {\begin{array}{*{20}{c}} {R_{F{S_1}}^{{\gamma _1}}}&{R_{F{S_1}}^{{\gamma _2}}}&{R_{F{S_1}}^{{\gamma _3}}}&{R_{F{S_1}}^{{\gamma _1}}}& \cdots \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ {R_{F{S_f}}^{{\gamma _1}}}&{R_{F{S_f}}^{{\gamma _2}}}&{R_{F{S_f}}^{{\gamma _3}}}&{R_{F{S_f}}^{{\gamma _1}}}& \cdots \\ {R_{B{S_1}}^{{\gamma _1}}}&{R_{B{S_1}}^{{\gamma _2}}}&{R_{B{S_1}}^{{\gamma _3}}}&{R_{B{S_1}}^{{\gamma _1}}}& \cdots \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ {R_{B{S_b}}^{{\gamma _1}}}&{R_{B{S_b}}^{{\gamma _2}}}&{R_{B{S_b}}^{{\gamma _3}}}&{G_{B{S_b}}^{{\gamma _1}}}& \cdots \end{array}} \right] $ | (2) |
式中:每行对应于前景/背景候选区域中的颜色样本,FSi和BSj依次表示三元图中的f个前景候选超像素和b个背景超像素;每列对应测试图像超像素的11个颜色通道平均像素值,例如R, G分别代表颜色通道R和G.
最终显著图可以由高维颜色空间的颜色系数的线性组合表示为
$ {S_{\rm{G}}}\left( {{X_i}} \right) = \sum\limits_{j = 1}^l {{\mathit{\boldsymbol{K}}_{i,j}}} \alpha _j^*,i = 1,2, \cdots ,N. $ | (3) |
式中α*是α通过l2正则化最小二乘得到.
1.1.2 局部显著性区域检测局部显著性区域检测方法用相邻超像素的空间距离和颜色距离作为特征.对于图像中的每个超像素Xi,计算其空间和颜色距离特征[16].显著性检测的完成使用随机森林回归算法,根据超像素的特征向量估计其显著度,生成最终检测结果.
1.1.3 显著性区域图的生成在应用两种方法分别生成显著性区域图之后,需要将其组合在一起以获得最终显著性区域图,Borji等[17]提出了一种结合两种显著性检测结果的方法
$ {S_{{\rm{final}}}} = \frac{1}{Z}\left( {p\left( {{S_{\rm{G}}}} \right) + p\left( {{S_{\rm{L}}}} \right)} \right). $ | (4) |
式中:Z是归一化因子,p(·)是逐像素组合函数,SG和SL分别是全局和局部显著性检测结果.
p(x)=exp(x)可以作为逐像素组合函数来给予高显著性度的区域更高权重值.权重值由显著性区域检测结果和显著性区域真实结果GT的比较来得到.通过求解非线性最小二乘问题来计算线性求和的最佳权重值.
$ \mathop {\min }\limits_{\begin{array}{*{20}{c}} {{\omega _1} \ge 0,{\omega _2} \ge 0}\\ {{\omega _3} \ge 0,{\omega _4} \ge 0} \end{array}} \left\| {{\omega _1}p\left( {{\omega _1}{S_{\rm{G}}}} \right) + {\omega _3}p\left( {{\omega _4}{S_{\rm{G}}}} \right) - {\rm{GT}}} \right\|_2^2. $ | (5) |
本文针对每个变量迭代优化其中的非负最小二乘目标函数来找到最优权重.式中的目标函数是双凸的,经过几个优化步骤后一定会收敛.然而通过不同的初始值会得到不同的结果,因此可以使用随机初始化的变量重复优化过程几次,得到最终的结果,权重值为ω={1.15, 0.74, 1.57, 0.89}.
最终显著性区域图组合方式为
$ {S_{{\rm{final}}}} = \frac{1}{Z}\left( {{\omega _1}p\left( {{\omega _2}{S_{\rm{G}}}} \right) + {\omega _3}p\left( {{\omega _4}{S_{\rm{L}}}} \right)} \right). $ | (6) |
显著性区域检测结果如图 2所示,图中还展示了显著性区域内提取边缘图像和直接提取对比.与直接提取相比,显著性区域提取的边缘图像能有效减少图像背景对模板匹配过程的影响.
基于轮廓匹配的目标检测算法在显著性区域图像中进行,包括对边缘图像的处理和后续的轮廓匹配过程.
1.2.1 边缘图像处理本文将对显著性区域进行轮廓提取得到的图像定义为初始边缘图像,对其进行的优化处理包括边缘链接和轮廓线段筛选.
边缘链接:对显著性区域图像的边缘检测算法利用高斯模糊去除噪声的同时削弱了边缘信息,造成初始边缘图像轮廓线段不完整,因此需要进行边缘链接,本文用到Kovesi[18]开发的边缘链接软件.图 2中由显著性区域得到的边缘图像就是通过边缘检测和边缘链接算法得到.
轮廓线段筛选:显著性区域检测并未完全将目标之外的部分删除,因此边缘检测算法也会产生一些与目标无关的轮廓线段.这些轮廓线段分为两类:第一类是边缘链接后仍然较短的轮廓线段,基本不具有形状描述能力,可以设置阈值将其删除;第二类是孤立轮廓线段,满足阈值长度,但不与其余轮廓线段产生联系,图像边缘轮廓的连续性决定了此类线段也不具有形状描述能力,在边缘图像处理过程中也可以删除.处理过程如图 3所示,以图片彩色边缘图像为例,最终得到的边缘图像可直接进行轮廓匹配.
对于一段给定的轮廓段S,对其进行像素点采样,如图 4所示, 首先采样得到采样点Pi=(xi, yi),(i=1, 2, …, N),N是轮廓段采样点的个数.首先计算该段轮廓的质心点G.然后对每个采样点找到其最远距离点fPi,通过计算采样点Pi到其它所有采样点的距离,最远距离点fPi.
函数DS(Pi)计算每个采样点的形状描述子为
$ {D_{\rm{S}}}\left( {{P_i}} \right) = {\left( {d_i^{\rm{S}},\alpha _i^{\rm{S}},cR_i^{\rm{S}}} \right)^{\rm{T}}}, $ | (7) |
$ c{R_i} = \frac{{{\rm{chordLe}}{{\rm{n}}_i}}}{{{\rm{radLe}}{{\rm{n}}_i}}}. $ | (8) |
式中:di是采样点Pi质心点G的归一化距离,由Pi和fPi之间的距离来归一化;αi是表示由
得到每个采样点的形状描述子后,每条轮廓段S的形状描述子SD(S)可以由式(7)组合表示为
$ \begin{array}{*{20}{c}} {SD\left( S \right) = \left( {{D_{\rm{S}}}\left( {{P_1}} \right),{D_{\rm{S}}}\left( {{P_2}} \right), \cdots {D_{\rm{S}}}\left( {{P_N}} \right)} \right) = }\\ {\left( {\begin{array}{*{20}{c}} {d_1^{\rm{S}}}& \cdots &{d_N^{\rm{S}}}\\ {\alpha _1^{\rm{S}}}& \ddots &{\alpha _N^{\rm{S}}}\\ {cR_1^{\rm{S}}}& \cdots &{cR_N^{\rm{S}}} \end{array}} \right).} \end{array} $ | (9) |
式中SD(S)是3×N维矩阵.其中每列代表该轮廓段上第i个采样点的形状描述子DS(Pi);每行代表轮廓段的距离信息,角度信息和弧度信息.
得到完整轮廓段的形状描述子之后可以进行模板匹配.通过形状描述子间的相似度来表示两条轮廓段的匹配关系.形状描述子以矩阵表示,二者的矩阵相关系数可以反映其关系得密切程度,就能代表不同轮廓段的匹配程度.不同形状描述子之间的相关系数被称为轮廓的匹配系数.
例如,对于待匹配轮廓段A, B,可以得到SD(A)和SD(B)分别为3×M和3×N的矩阵(M≥N).由于轮廓段是连续采样,可以用迭代的方式将较高维度矩阵降维,得到维度均为3×L(M≥N≥L)的矩阵
$ m\left( {A,B} \right) = \frac{{\sum\limits_3 {\sum\limits_l {\left( {\widetilde {SD}\left( A \right) - \overline {\widetilde {SD}\left( A \right)} } \right)} } \left( {\widetilde {SD}\left( B \right) - \overline {\widetilde {SD}\left( B \right)} } \right)}}{{\sqrt {\left( {{{\sum\limits_3 {\sum\limits_l {\left( {\widetilde {SD}\left( A \right) - \widetilde {SD}\left( A \right)} \right)} } }^2}} \right)\left( {{{\sum\limits_3 {\sum\limits_l {\left( {\widetilde {SD}\left( B \right) - \widetilde {SD}\left( B \right)} \right)} } }^2}} \right)} }}. $ | (10) |
式中
形状描述子已经广泛应用于现在的形状匹配算法中,本文中提出的形状描述子中,轮廓段的角度信息和弧长弦长的关系表示其边界信息,采样点和质心点之间的距离关系表示其区域信息,所以能够对轮廓段的形状有完全定量的描述,更全面地描述轮廓的形状,显著提高描述能力.
1.2.3 轮廓匹配上述处理后,就可以对边缘图像和模板边缘进行轮廓匹配,图 5是本文中轮廓匹配的流程图.
轮廓匹配过程中,首先要建立边缘图像和模板边缘轮廓匹配的空间关系,然后应用深度优先搜索获得候选假设.因为提前对模板边缘做了优化处理,所以3~4条轮廓线段足以描述整个目标,搜索到多于3个片段可以被确定为候选假设.验证候选假设时使用了支持向量机的分类器模型(SVM)进行二分类判断每个假设是否可以作为最终检测.
2 结果及分析 2.1 实验结果本文在ETHZ形状数据集中[8]进行了实验,该数据集有5个不同的类别,分别是苹果标志,马克杯,长颈鹿,天鹅和瓶子五种,共包含155个图像,每个类别包含32~37张图像,所有类别都包含有显著的比例变化,光照变化和类内变化,而且图像中目标大都被不相关的背景杂波包围,因此非常适合本文所提出的目标检测算法.实验中将数据集中所有图像作为测试图像,部分检测结果如图 6所示,在实验中,苹果标志类图像进行目标检测时,训练了处理数据集中原有图像来得到模板轮廓,其余的类别使用了数据集中所提供的模型来进行轮廓匹配,每个类别的模板图像都在图 6中最右列给出.
本节对实验结果进行分析,利用检测结果与真实值的交并比(Intersection-over-Union,IoU)进行目标检测性能评估,IoU是目标检测问题中的标准性能度量,一般大于50%时就可以认定检测性能良好.本文使用了20%-IoU和50%-IoU的检测标准,分别认定当检测结果与真实值的交并比大于20%或者50%的时候目标检测任务完成.将本文算法的结果与现有的基于形状的方法(包括Ferrari等[7]提取尺度不变的形状特征组成网络的方法,张桂梅等[19]提出的改进局部轮廓特征方法,Nguyen等[8]提出的倒角匹配方法,毕威等[20]提出的基于图像显著性轮廓的方法和Wei等[9]利用轮廓分割和优化进行形状匹配的方法)进行比较,评估各算法的检测性能.首先统计目标检测率和误报率的曲线关系,检测率是用符合标准的检测结果次数除以总数,误报率表示每个图像在实验过程中的平均误报数,也就是全部错误次数除以图像数量.检测率/误报率曲线表示不同误报率的情况下的目标检测率,可以用来评价不同目标检测算法的性能.在图 7中展示了不同算法的检测率/误报率的关系曲线.
图 7中可以看到,在误报率较低的情况下,本文方法在瓶子和苹果标志类的检测性能比Nguyen的方法略差.但其余情况下,本文方法在所有类别的检测中均优于其它算法.这是因为与Ferrari和张桂梅提出的方法相比,实验中对初始边缘图像进行了轮廓优化,得到的轮廓段更完整,而且形状描述子包含轮廓段的角度信息和边界信息,可以改善因为提取片段不连贯造成的检测性能略低的问题.和Nguyen的方法相比,显著性区域检测算法的应用可以保证复杂背景下的检测性能.毕威也选取了基于显著性的方法,但是该方法仅考虑了显著性轮廓.与Wei的方法比较,算法也有相对较好的性能表现,这是因为Wei的轮廓预处理程序受限于图像背景,但是本文方法无需对背景进行轮廓处理.
总的来看,图 7中可以看出,本文算法在不同误报率的容错条件下目标检测率均比其余算法有所提升,可以更有效地检测复杂背景中的目标.表 1单独列出了在50%-IoU的检测标准下误报率分别为0.3和0.4时不同算法的检测率.
本文还在其他数据集做了实验来验证算法的可行性,在INRIA Horse[21], Weizmann Horse[22]和Caltech101[23]数据集中都做了实验,部分检测结果如图 8所示.
本文提出了一种在复杂背景图像中进行目标检测的新算法,将显著性区域检测算法和基于形状的模板匹配算法相结合.与之前的工作相比,本文首先在传统的目标检测基础上对输入图像进行显著性检测的预处理,在显著性区域内进行模板匹配能够降低目标检测结果受背景的影响.在基于轮廓形状实现模板匹配的过程中,用到了具有更全面轮廓信息的形状描述子.然后采用深度优先搜索策略对候选假设进行验证,确定目标位置.最后在ETHZ形状数据集中进行了实验,结果表明与现有基于形状的目标检测方法相比,本文算法显著提高了检测率,在图像目标检测技术的广泛应用下具有十分重要的意义.
[1] |
任菲菲.基于形状模板匹配的实时目标检测与跟踪算法研究[D].武汉: 华中科技大学, 2017 REN Feifei. A research of real-time object detection and tracking based on shape-based template matching[D]. Wuhan: Huazhong University of Science&Technology, 2017 |
[2] |
ZHOU Xinmin, WANG Kaiyuan, FU Jian. A method of SIFT simplifying and matching algorithm improvement[C]//Proceedings of 2016 International Conference on Industrial Informatics-Computing Technology. Piscataway: IEEE, 2017. DOI: 10.1109/ICIICII.2016.0029
|
[3] |
逯睿琦, 马惠敏. 多尺度显著性区域提取的模板匹配[J]. 光学精密工程, 2018, 26(11): 2776. LU Ruiqi, MA Huimin. Template matching with multi-scale saliency[J]. Optics and Precision Engineering, 2018, 26(11): 2776. DOI:10.3788/OPE.20182611.2776 |
[4] |
韦琪, 王连明. 基于多尺度轮廓段的形状特征提取与识别[J]. 计算机工程与应用, 2018, 55(5): 187. WEI Qi, WANG Lianming. Shape feature extraction and recognition based on multi-scale contour segments[J]. Computer Engineering and Applications, 2018, 55(5): 187. DOI:10.3778/j.issn.1002-8331.1808-0198 |
[5] |
WEI Hui, YU Qian, YANG Chengzhuan. Shape-based object recognition via evidence accumulation inference[J]. Pattern Recognition Letters, 2016, 77: 42. DOI:10.1016/j.patrec.2016.03.022 |
[6] |
YU Qian, WEI Hui, YANG Chengzhuan. Local part chamfer matching for shape-based object detection[J]. Pattern Recognition, 2017, 65: 82. DOI:10.1016/j.patcog.2016.11.020 |
[7] |
FERRARI V, JURIE F, SCHMID C. From images to shape models for object detection[J]. International Journal of Computer Vision, 2010, 87(3): 284. DOI:10.1007/s11263-009-0270-9 |
[8] |
NGUYEN D T. A novel chamfer template matching method using variational mean field[C]//Proceedings of 2014: IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014. DOI: 10.1109/CVPR.2014.311
|
[9] |
WEI Hui, YANG Chengzhuan, YU Qian. Contour segment grouping for object detection[J]. Visual Communication and Image Representation, 2017, 48: 292. DOI:10.1016/j.jvcir.2017.07.003 |
[10] |
BORJI A, CHENG Mingming, HOU Qibin, et al. Salient object detection:A survey[J]. Eprint Arxiv, 2014, 16(7): 3118. |
[11] |
ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274. DOI:10.1109/TPAMI.2012.120 |
[12] |
ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 1574
|
[13] |
CHENG Mingming, ZHANG Guoxin, MITRA N J, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569. DOI:10.1109/CVPR.2011.5995344 |
[14] |
FEDERICO, YAEL P, ALEXANDER H. Saliency filters: Contrast based filtering for salient region detection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE 2012: 733
|
[15] |
JENNESS J W. Human color vision, 2nd Edition, by Peter K. Kaiser and Robert M. Boynton[J]. Color Research and Application, 1997, 22(5): 357. DOI:10.1002/(SICI)1520-6378(199710)22:5<357::AID-COL11>3.0.CO;2-7 |
[16] |
KIM J, HAN D, TAI Y W, et al. Salient region detection via high-dimensional color transform and local spatial support[J]. IEEE Transactions on Image Processing, 2015, 25(1): 1. |
[17] |
BORJI A, SIHITE D N, ITTI L. Salient object detection:A benchmark[M]. Computer Vision-ECCV 2012. Berlin, Heidelberg: Springer, 2012: 414.
|
[18] |
KOVESI P D. MATLAB and Octave functions for computer vision and image processing[OL].(2008). https://www.peterkovesi.com/matlabfns/
|
[19] |
张桂梅, 张松, 储珺. 一种新的基于局部轮廓特征的目标检测方法[J]. 自动化学报, 2014, 40(10): 2346. ZHANG Guimei, ZHANG Song, CHU Jun. A new object detection algorithm using local contour features[J]. Acta Automatica Sinica, 2014, 40(10): 2346. DOI:10.3724/PS.J1004.2014.02346 |
[20] |
毕威, 黄伟国, 张永萍, 等. 基于图像显著轮廓的目标检测[J]. 电子学报, 2017, 45(8): 1902. BI Wei, HUANG Weiguo, ZHANG Yongping, et al. Object detection based on salient contour of image[J]. Acta Electronica Sinica, 2017, 45(8): 1902. DOI:10.3969/j.issn.0372-2112.2017.08.2014 |
[21] |
FERRARI V, TUYTELAARS T, GOOL L J V. Object detection by contour segment networks[C]//Proceedings of European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2006(3952): 14
|
[22] |
BORENSTEIN E, SHARON E, ULLMAN S. Combining top-down and bottom-up segmentation[C]//Proceedings of 2014 Conference on Computer Vision and Pattern Recognition Workshop. Piscataway: IEEE, 2004(2005): 44
|
[23] |
LI Feifei, FERGUS R, PERONA P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories[C]//Proceedings of Conference on Computer Vision&Pattern Recognition Workshop. Piscataway: IEEE, 2004, 106(1): 59
|