摘要
为解决连铸坯表面缺陷类别多、特征差异大造成的检测精度低、误检漏检和难以实时检测等问题,提出一种基于改进YOLOv5s的面向连铸坯表面缺陷分形特征检测算法(FN-YOLOv5),以实现连铸坯表面缺陷的快速、精确、智能化检测。首先,在YOLOv5s模型多尺度特征融合网络引入压缩与激励注意力机制,实现特征权重自适应调整;其次,采用BiFPN网络替换原始网络结构,提高模型多尺度特征融合能力;最后,基于Swin Transformer引入C3STR模块,增强模型密集目标信息捕获能力。面向连铸坯表面缺陷数据集和经典开源热轧带钢缺陷数据集NEU-DET的实验结果表明:FN-YOLOv5算法在两个数据集的平均检测精确率分别达到0.786和0.784,较YOLOv5s算法分别提高5.4%和4.7%,检测速度分别为91.74和88.64帧每秒。在满足实际应用需求基础上,验证了检测精度和普适性能力的提升,与其他经典目标检测算法相比,FN-YOLOv5整体表现更出色均衡,为钢铁冶金领域智能化无损检测提供技术参考。
Abstract
To solve the problems of low detection accuracy, false positives, false negatives and the challenge of real-time detection caused by multiple types of surface defects and significant feature variations in continuous casting billets, an improved YOLOv5s based fractal nature detection algorithm for surface defects in continuous casting billets (FN-YOLOv5) is proposed to achieve fast, accurate, and intelligent detection of surface defects in continuous casting billets. Firstly, the SE attention mechanism is introduced into the multi-scale feature fusion network of the YOLOv5s model to achieve adaptive adjustment of feature weights. Secondly, the BiFPN network is used to replace the original network structure and improve the multi-scale feature fusion ability of the model. Finally, based on the Swin Transformer, the C3STR module is introduced to enhance the model’s ability to capture dense target information. The experimental results on both the continuous casting billet surface defect dataset and the classic open-source hot rolled strip defect dataset NEU-DET show that the FN-YOLOv5 algorithm has an average detection accuracy of 0.786 and 0.784, respectively in the two datasets, which shows an improvement of 5.4% and 4.7% compared to the YOLOv5s algorithm. The detection speedsare 91.74 frames per second and 88.64 frames per second, respectively. On the basis of meeting practical application requirements, the improvement of detection accuracy and universality ability are validated. Compared with other classic object detection algorithms, FN-YOLOv5 demonstrate superior overall performance,providing technological reference for intelligent non-destructive testing in the field of steel and metallurgy.
连铸坯作为钢铁生产过程中的重要中间产物,其表面质量对最终产品的质量和性能有着重要的影响。但是连铸坯在生产加工过程中容易受到环境中不良因素影响,导致表面出现裂纹、气孔、夹杂物等缺陷,这些缺陷会造成成品钢材在使用过程中出现脆性断裂、疲劳破坏等问题[1]。因此,连铸坯表面缺陷的实时检测和处理具有重要的意义。目前,针对连铸坯表面缺陷检测问题,国内外部分工厂采用目测抽检的方式对连铸坯表面质量进行检测,此方法出现漏检、误检的情况多,且需要线下检查,实时性差,方法缺乏科学性[2]。国内外逐步开始对机器视觉、涡流检测、超声检测等无损检测技术进行研究[3-6]。相较上述方法,深度学习在连铸坯表面缺陷检测任务中特征获取能力、对外部环境的鲁棒性以及泛化能力都更强[7-8]。因此,本文基于深度学习技术以检测精度为首要提升导向,在YOLOv5s检测网络结构基础上进行改进,引入压缩与激励(Squeeze-and-Excitation,SE)注意力机制实现连铸坯表面缺陷特征通道权重自适应调整,引入双向特征金字塔(Bidirectional Feature Pyramid Network,BiFPN)提高模型多尺度特征融合能力,基于滑动窗口变换(Swin Transformer)引入C3STR模块提升模型对连铸坯表面缺陷的理解感受,增强模型对密集目标信息捕获能力。
1 算法原理及其改进策略
1.1 YOLOv5s目标检测算法
YOLO(You Only Look Once)系列深度学习算法被广泛用于目标检测领域。其中YOLOv5算法包含4种网络结构:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,4种结构整体框架一致,在模型深度及宽度存在区别。综合考虑检测速度及精度要求,选用检测速度最快、检测精度相对较高的YOLOv5s作为基础模型进行研究,同时考虑不同版本模型结构差异,选用较新的6.0版本。
YOLOv5s 6.0网络结构由输入端Input、主干网络Backbone、多尺度特征融合网络Neck、预测端Head 4部分构成,如图1所示。输入端Input采用Mosaic数据增强[9]、自适应缩放等方式,提高网络检测性能。主干网络Backbone负责目标特征的提取,为便于模型部署,6.0版本摒弃了原先切片结构Focus,同时将空间金字塔池化SPP[10]改进为快速空间金字塔池化SPPF[11],因此其主要由卷积层CBS(也叫conv层,由卷积Conv、批量归一化BN[12]、激活函数SiLU[13]组成)、C3层(根据Bottleneck不同分为C3Ture和C3False,用以增加网络的深度和感受野,提高模型特征提取能力)、快速空间金字塔池化SPPF(在不同尺度下对特征图进行池化,使模型具有更好的尺度不变性)组成。多尺度特征融合网络Neck负责特征融合,基于PANet结构采用自顶而下与自底而上的特征传递方式完成各层级特征有效融合。预测端Head负责对目标类别及位置进行预测。

图1YOLOv5s 6.0网络结构
Fig.1YOLOv5s 6.0 networks structure
1.2 FN-YOLOv5算法及其改进策略
在满足检测实时性前提下,经过预实验,提出一种基于改进YOLOv5s的面向连铸坯表面缺陷分形特征检测算法(FN-YOLOv5),其网络结构如图2所示。改进方法使用C3STR结构替换YOLOv5s多尺度特征融合网络Neck部分C3层,在其后嵌入SE注意力机制,同时引入BiFPN结构替换PANet结构。

图2FN-YOLOv5网络结构
Fig.2FN-YOLOv5 network structure
1.2.1 SE通道注意力特征权重调整
为增强模型对连铸坯表面缺陷关键特征的敏感性,减少环境背景干扰,引入SE注意力机制。作为一种增强模型表达能力的通道注意力机制[14],其核心思想在于通过评估不同特征通道的重要性程度,增强重要特征表达,抑制冗余特征,实现特征通道权重的自适应调整。
SE注意力机制主要分为压缩(Squeeze,sq)、激励(Excitation,ex)和调节(Scale)3个操作,如图3所示。压缩操作将特征图的每个通道进行压缩处理,通过全局平均池化(Global Average Pooling,GAP)将特征图的高度和宽度(H×W)维度降为1,输出一个仅有通道数(C)维度的向量(1×1×C);激励操作使用两个全连接层(Fully Connected Layer,FC)和激活函数(ReLU[15]和Sigmoid)构成的结构,对得到的向量进行处理,输出与输入特征通道数相同的权重值,即每个特征通道的权重系数;最后,调节操作将上一步输出的权重系数视为各个特征通道的重要性,并与原始特征进行加权处理,完成通道维度上原始特征的重新标定,3个操作如下:
(1)
(2)
(3)
式中:uc为输入特征图通道权重;W1为第一次全连接过程;W2为第二次全连接过程;σ为激活函数,其中σ1为Sigmoid,σ2为ReLU;z为输入特征图每个通道输出;sc为调节权重。

图3SE注意力机制
Fig.3SE Attention mechanism: (a) schematic diagram; (b) structure diagram
1.2.2 加权双向特征金字塔网络结构改进
连铸坯表面缺陷尺度特征差异大,且含有不易检测的小目标,随着卷积的深入,部分目标特征易被忽略。因此引入BiFPN模块,增强模型的多尺度特征融合能力,提高检测性能。
目前较主流的特征金字塔结构有FPN[16]、PANet[17]和BiFPN[18],如图4所示。FPN能够利用经自顶向下处理后的数据信息。通过提高小目标特征映射分辨率,获得更多有效信息。PANet基于FPN添加了1条自底而上路径,有效避免了FPN结构被单向信息流限制的局限性,也验证了双向融合的有效性。本研究使用BiFPN结构对YOLOv5多尺度特征融合网络中PANet结构进行替换。BiFPN基于PANet框架进行加权双向跨尺度连接,通过去除原始结构中特征融合作用较小(仅有1条输入边)的节点,实现网络结构的简化,同时为处于同一层的原始输入节点和原始输出节点间增加1条额外的特征融合边,实现了较低成本代价下更多的特征融合。

图4不同特征金字塔结构对比图
Fig.4Comparison of pyramid structures with different features: (a) FPN structure; (b) PANet structure; (c) BiFPN structure
在进行特征融合操作时,不同分辨率的特征图对融合输入具有不同的贡献度,因此BiFPN引入快速归一化融合方法,为每个输入进行加权
(4)
式中:wi为输入特征Ii的对应可学习权重,在每个权重前添加1个ReLU激活函数保证wi>0,提升运算速度;ε为初始学习率,通常设置为0.001来维持数值稳定性。以P6层为例,计算式为:
(5)
(6)
式中:为第i层输入特征;为第i层中间特征;为第i层输出特征;Resize为上采样或下采样操作。
1.2.3 Swin Transformer密集目标信息特征识别增强
为使模型更好的适应连铸坯表面缺陷目标密集性特征差异,基于Swin Transformer[19]网络思想,引入滑动窗口变换模块(Swin Transformer Block,STB),如图5所示。
STB主要由窗口多头自注意力(Window Multi-Head Self-Attention,W-MSA)模块和滑动窗口多头自注意力(Shifted Window Multi-Head Self-Attention,SW-MSA)模块组成,这两个子模块与传统Transformer[20]自注意力MSA子模块相比,将计算限制于窗口,较大程度简化了计算复杂度,3个子模块计算复杂度如下:
(7)
(8)
式中: Ω为计算复杂度;M为常量(通常设置为7);H、W分别为特征高和宽的数值。由式可知W-MSA和SW-MSA子模块计算复杂度与H、W线性相关,MSA模块计算复杂度与H、W二次相关。
特征进入STB,在第一部分经归一化处理(Layer Normalization,LN)进入W-MSA子模块,在窗口进行自注意力计算,再经多层感知器(Multi-layer perceptron,MLP)得到输出,通过第二部分SW-MSA子模块,基于移动窗口进行自注意力计算,随后经MLP进行全局平均池化,得到最终的预测结果。其中自注意力的计算公式为
(9)
式中:Attention为注意力;SoftMax为归一化指数函数;Q、K、V分别为Query、Key、Value对应矩阵,Query、Key为计算Attention权重的特征向量,Value为输入特征的向量;d为Q和K的向量维度;B为相对位置偏置矩阵。

图5滑动窗口变换模块结构示意图
Fig.5Schematic diagram of STB structure
STB中LN层能够防止模型过拟合,使其具有更好的收敛性,W-MSA和SW-MSA子模块增强模型对当前像素环境信息的捕获,提高了对密集性目标的检测效果。本研究将STB嵌入C3层,将其封装为C3STR结构,作为辅助模块引入Transformer离散参数,利用窗口自注意力模块来对小目标进行语义信息和特征表达增强,改进后的卷积结构如图6所示。

图6C3STR结构示意图
Fig.6Schematic diagram of C3STR structure
2 结果与分析
2.1 连铸坯表面缺陷数据集
由于工艺和条件差异,连铸坯表面缺陷种类繁多,不同地区及行业的标准也存在一定差异。研究基于美国DGS冶金咨询有限公司[21]及现行中华人民共和国黑色冶金行业标准[22],将缺陷划分为裂纹(cracking)、气孔(pore)、夹杂(inclusion)。数据集基于中国重型机械研究院提供资料制作,共包含1 200张连铸坯冷坯表面缺陷图片,其中裂纹460张,气孔400张,夹杂340张,信息如图7所示。以8∶2比例对数据集各类缺陷随机划分,最终获得训练集960张,测试集240张,并采用LabelImg工具对数据集进行标注。

图7连铸坯表面缺陷数据集信息
Fig.7Continuous casting billet surface defect dataset information: (a) crazing; (b) pore; (c) inclusion
2.2 实验训练环境与训练方法
实验硬件配置为Intel(R)Core(TM)i5-12490F @3.0/4.6GHz处理器,NVIDIA GeForce RTX 3060(12GB)显卡。软件环境为CUDA11.3,操作系统为Windows10。网络模型框架基于Pytorch1.10.0版本搭建,Python为3.8版本。
为避免模型陷入局部最优,提高检测性能,训练采用随机梯度下降(Stochastic Gradient Descent,SGD)优化器,初始学习率设置为0.01,动量设为0.937,训练批量大小设为8,通过多次预训练,设定实验训练总轮数为200轮。设置Mosaic数据增强对输入图像进行随机缩放、剪裁后拼接处理,以提升数据集多样性与模型鲁棒性,处理后图像如图8所示。

图8Mosaic数据增强示意图
Fig.8Schematic diagram of Mosaic data enhancement
2.3 实验分析与对比
2.3.1 评价指标
研究以精确率(P)、召回率(R)、平均精度均值(mAP)、帧率RF为评价指标。样本的检测结果主要分为以下4种情况:正样本预测为正(True Positives,TP)、负样本预测为负(True Negatives,TN)、负样本预测为正(False Positives,FP)、正样本预测为负(False Negatives,FN)。
精确率(Precision,P)是指被正确预测的正样本占所有预测为正样本的比率
(10)
召回率(Recall,R)是指被正确预测的正样本占所有真实为正样本的比率
(11)
为使评价更具综合性,引入平均精确度(Average Precision,AP)与平均精度均值(mean Average Precision,mAP)指标以体现模型检测精度。AP是以精确率P为纵坐标、召回率R为横坐标的二维P-R曲线下面积。mAP是对各个类别的平均精确度取均值,计算式为
(12)
其中N为类别数,判断目标检测是否正确使用的重叠度(Intersection Over Union,IOU)阈值取0.5时,平均精度均值记为mAP@0.5。
帧率(RF)指画面每秒传输帧数,在目标检测领域指的是模型每秒推理的图像数,反映检测速度,综合相关文献资料[23],本文设定满足连铸坯表面缺陷检测实时性帧率需大于40帧每秒。
2.3.2 面向连铸坯表面缺陷数据集消融实验
为验证改进方法的有效性,设置消融实验,依次添加模型改进方法,结果如表1所示。由表1可知,未改进的YOLOv5s模型在连铸坯表面缺陷数据集上的mAP@0.5=0.746,mAP@0.5在引入SE注意力机制后提升1.6%;引入SE和BiFPN优化后提升3.4%;引入SE、BiFPN和C3STR优化后提升5.4%,此时mAP@0.5=0.786,RF=91.74帧每秒。实验结果说明,各个部分改进都提升了模型的检测精度,虽然引入C3STR结构增加了模型复杂度导致RF有一定下降,但模型仍满足实时性检测要求,符合本研究提升检测精度的实验目的,验证了本研究改进方法的有效性。
表1面向连铸坯表面缺陷数据集的消融实验结果
Table1Ablation experimental results for continuous casting slab surface defect dataset

2.3.3 面向连铸坯表面缺陷数据集对比实验
为验证FN-YOLOv5s的优势,将其与YOLOv5的4种网络模型(s、m、l、x)以及目前通用目标检测算法SSD、Faster R-CNN、YOLOv3、YOLOv4模型进行比较,对比实验在所有模型超参数一致的情况下进行,面向连铸坯表面缺陷数据集的对比实验结果如表2所示。由表2可知,YOLOv3、YOLOv4满足检测实时性要求,但mAP@0.5较低,相较YOLOv5系列模型没有优势;YOLOv5的4种网络模型mAP@0.5随结构的加深、加宽逐步提升,但RF下降较为严重,YOLOv5x难以满足实时性要求;Faster RCNN、SSD的mAP@0.5与RF都较低,不能满足连铸坯表面缺陷目标检测任务的精度及实时性要求。FN-YOLOv5的mAP@0.5=0.786,在对比实验模型中数值最高,各类缺陷AP表现优秀,且RF=91.74帧每秒,仅次于YOLOv5s,达到实时性要求,因此可以认为FN-YOLOv5在综合性能上有更好的表现。
表2面向连铸坯表面缺陷数据集的对比实验结果
Table2Comparative experimental results for dataset of surface defects in continuous casting billets

注:为便于观测,将评价指标排名1、2位的数值加粗表示
2.3.4 面向热轧带钢表面缺陷数据集的普适性验证对比实验
为验证FN-YOLOv5在金属冶金表面缺陷检测领域的普适性与通用性,面向东北大学热轧带钢表面缺陷数据集(NEU-DET)进行对比实验验证。热轧钢由连铸坯加热轧制而成,部分缺陷特征与连铸坯表面缺陷特征具有相关性[24],选用NEU-DET作为二次验证数据集能够较好的描述模型的泛化能力与实用性。NEU-DET共有6类缺陷,每类缺陷由300张200×200像素图像组成,数据集信息如图9所示。
通过多次预训练,综合考虑数据集样本、损失函数值差异以及过拟合等情况,将此实验训练总轮数改设为300轮,实验结果如表3所示。由表3可知,实验结果与连铸坯表面缺陷相似,通用目标检测算法难以满足精度及实时性要求,FN-YOLOv5的mAP@0.5=0.784,在对比实验模型中数值最高,各缺陷类别AP表现优秀,且RF=88.64帧每秒,满足实时性要求,综合性能最优。可以说明FN-YOLOv5在金属冶金缺陷检测领域具有一定泛化能力及通用性。

图9NEU-DET验证数据集信息
Fig.9NEU-DET validation dataset information: (a) crazing; (b) inclusion; (c) patches; (d) pitted surface; (e) rolled-in scale; (f) scratches
表3面向东北大学热轧带钢表面缺陷数据集的普适性验证对比实验结果
Table3Comparative experimental results of universal validation for surface defects of hot rolled strip steel datasets at Northeastern University

注:为便于观测,将评价指标排名1、2位的数值加粗表示
为直观验证FN-YOLOv5算法的优势,在连铸坯表面缺陷数据集中随机抽取样本,以优化前后算法分别检测,并进行可视化展示,结果如图10所示。由图10可知,由于部分连铸坯表面缺陷特征信息较少,YOLOv5s算法检测时会存在气孔和夹杂缺陷的漏检和误检问题,且裂纹缺陷的检测精确度较低。而使用FN-YOLOv5算法进行检测有效避免了气孔和夹杂缺陷的漏检、误检情况,且对裂纹缺陷的精确度有了显著提升,实现了正确的检测和识别。
综上所述,FN-YOLOv5算法有效地提高了对连铸坯表面缺陷目标的检测能力,有效提升了模型的精度和鲁棒性,能够对多种连铸坯表面缺陷进行正确分类识别。
图10连铸坯表面缺陷数据集上的可视化检测对比结果
Fig.10Visual inspection comparison results on surface defects dataset of continuous casting billets: (a) original image of cracking defects; (b) original image of pore defects; (c) original image of inclusion defects; (d) YOLOv5s cracking detection results; (e) YOLOv5s pore detection results; (f) YOLOv5s inclusion detection results; (g) FN-YOLOv5 cracking detection results; (h) FN-YOLOv5 pore detection results; (i) FN-YOLOv5 inclusion detection results
3 结论
本文提出一种基于改进YOLOv5s的面向连铸坯表面缺陷分形特征检测算法FN-YOLOv5,主要结论如下:
1)本文构建的连铸坯表面缺陷数据集以实际工业生产环境为基础,综合国内外文献及行业标准进行缺陷分类,数据集不经过对比增强、亮度调节等预处理操作,贴近实际工程应用环境,结果具有较高可靠性。
2)基于FN-YOLOv5的连铸坯表面缺陷检测算法通过自适应特征权重调整,多尺度特征融合改进及密集目标信息捕获增强,提高了尺度差异性较大缺陷目标检测率,加强了小目标信息特征表征。FN-YOLOv5相较目前通用目标检测算法及对比实验其他算法具有更好的检测精确率及检测速度。
3)通过消融实验结果,表明了算法各部分改进能够在满足检测实时性要求下,有效提升检测精确率,验证了改进方法的有效性。
4)面向连铸坯表面缺陷数据集及热轧带钢表面缺陷数据集的实验结果验证了模型在金属冶金缺陷检测领域的普适性。高温、氧化皮等因素导致连铸坯在线检测存在一定难度,后续工作会使用迁移学习处理不同环境下连铸坯表面缺陷以进一步提升模型的鲁棒性和适用性,同时研究相关硬件系统以实现复杂环境下连铸坯表面缺陷在线检测。