哈尔滨工业大学学报  2022, Vol. 54 Issue (5): 140-145, 116  DOI: 10.11918/202106010
0

引用本文 

王睿, 胡云雷, 李海涛, 高少泽, 王刚. X射线焊缝图像缺陷实例分割算法[J]. 哈尔滨工业大学学报, 2022, 54(5): 140-145, 116. DOI: 10.11918/202106010.
WANG Rui, HU Yunlei, LI Haitao, GAO Shaoze, WANG Gang. Defect segmentation algorithm for X-ray weld images[J]. Journal of Harbin Institute of Technology, 2022, 54(5): 140-145, 116. DOI: 10.11918/202106010.

基金项目

国家自然科学基金(62073118);河北省自然科学基金(F2019202305)

作者简介

王睿(1978—),女,讲师

通信作者

胡云雷,961584451@qq.com

文章历史

收稿日期: 2021-06-03
X射线焊缝图像缺陷实例分割算法
王睿1,2, 胡云雷1, 李海涛1, 高少泽1, 王刚2    
1. 河北工业大学 人工智能与数据科学学院,天津 300131;
2. 先进焊接与连接国家重点实验室(哈尔滨工业大学),哈尔滨 150001
摘要: 为了提高分割算法在焊缝缺陷检测工程中的实用性,提出轻量级焊缝缺陷评估网络MYNet。其中,轻量级的残差结构降低了模型的计算量,多层视觉融合机制FPN(feature pyramid network)提高了网络的分割能力,并行蒙版机制可以得到快速和高质量的缺陷分割蒙版;引入开源跨平台计算机视觉库OpenCV,利用像素阈值计算不同缺陷面积;引入腾讯超高性能的移动平台推理框架,加快模型在中央处理器的前向推理速度。搭建以ARM Cortex-A72架构为控制核心的数字化人工智能(artificial intelligence)评估设备,部署适用于缺陷检测的轻量级64位Linux系统,验证了焊缝缺陷评估算法的可行性。实验结果表明:本文模型能够有效定位和学习不同类型的缺陷特征;网络评估缺陷面积和位置信息的准确率为94.64%;相比于准确度较高但计算量较大的MS R-CNN网络,所提方法的准确率仅下降1.93%,但网络的参数权重仅为MS R-CNN网络的1/14,网络执行所需计算力更低。在基于ARM(advanced RISC machine)架构的低成本硬件上,轻量级的残差结构使网络前向推理速度提升了309%,仅用1.7 s完成低成本硬件上的焊缝实例分割任务。本文所提方法能有效学习和评估X射线焊缝缺陷图像,应用在评估设备上的算法降低了焊接质检的成本。
关键词: 焊接检测    缺陷分割    面积评估    智能设备    卷积神经网络    
Defect segmentation algorithm for X-ray weld images
WANG Rui1,2, HU Yunlei1, LI Haitao1, GAO Shaoze1, WANG Gang2    
1. School of Artificial Intelligence, Hebei University of Technology, Tianjin 300131, China;
2. State Key Laboratory of Advanced Welding and Joining (Harbin Institute of Technology), Harbin 150001, China
Abstract: In order to improve the practicability of segmentation algorithm in weld defect detection, a lightweight weld defect evaluation network MYNet was proposed. In the network, the lightweight residual structure could reduce the amount of calculation of the model, the feature pyramid network (FPN) combined with multi-layer visual fusion mechanism could improve the segmentation ability of the network, and the parallel mask mechanism could obtain a fast and high-quality defect segmentation mask. The open source computer vision library platform OpenCV was introduced to calculate different defect areas by pixel threshold, and Tencent's ultra-high-performance mobile platform reasoning framework was introduced to accelerate the forward reasoning speed of the model in the central processing unit. In this study, a digital artificial intelligence evaluation device was built with the ARM Cortex-A72 architecture as the control core, and a suitable lightweight 64-bit Linux system was deployed for defect detection to verify the feasibility of the proposed weld defect evaluation algorithm. Experimental results show that the model could effectively locate and learn different types of defect features. The network evaluated the defect area and location information with the accuracy of 94.64%. Compared with the MS R-CNN network which has high accuracy but requires a large amount of calculation, the accuracy of the proposed method was only reduced by 1.93%, while the parameter weight was only 1/14 of the MS R-CNN network, and the computing power required for network execution was lower. The lightweight residual structure increased the forward reasoning speed of the network by 309%, and it only took 1.7 s to complete the task of segmentation of weld instances on the low-cost hardware based on the advanced RISC machine (ARM) architecture. The method proposed in this paper can effectively learn and evaluate X-ray weld defect images, and the algorithm applied to the evaluation device reduced the cost of welding quality inspection.
Keywords: welding detection    defect segmentation    area evaluation    intelligent device    convolutional neural network    

石油天然气行业蓬勃发展,为了保证能源运输的安全性,能源管道的焊接质量至关重要。X射线探测是一种适用于管道焊接的无损探伤方法,该方法是用射线(如X射线或γ射线)照射管道焊缝,然后通过射线胶片来识别焊缝内部形态。传统的胶片评价主要依靠人工检测,这会导致主观、不一致、耗时等问题。为了提高焊缝胶片评测的准确性和效率,许多学者尝试提取目标图像中的缺陷区域[1]。Malarvel等[2]提出了“最概率加权背景组”(LPWBG)的方法,通过采用威布尔分布,描述了X射线图像的焊接缺陷分割; 迟大钊等[3]提出了一种图像噪声抑制、背景去除、图像分割及数学形态学相结合的缺陷识别方法,在不等厚板图像中分离焊缝缺陷; Yan等[4]通过缺陷灰度分布陡峭的特点进行高斯滤波、灰度阈值分割、筛选,提取目标缺陷; Hou等[5]概括了特征提取、选择和基于学习的缺陷分割模型应用。然而, 基于传统的分割方法虽然能够克服背景影响,有效分割缺陷特征,但很难对缺陷进行有效的分类、统计和评估。

一直以来,基于深度学习的智能实例分割算法在工业质检领域得到了广泛的应用,如Mask R-CNN[6],MS R-CNN[7],YOLACT[8]等。实例分割算法不仅能够对目标缺陷分类和定位,还能够确定每个目标缺陷的实例语义,可以更好地完成质检工作,提高工业检测的自动化程度。智能实例分割算法大多依赖高性能计算机,复杂算法的工业应用只能通过远程部署到云端,无线网络制约着数据的上传,同时数据的安全性也面临着巨大的挑战,这与工业化的实际需求背道而驰。随着检验行业管理要求的提高,自动缺陷识别系统(automatic defect recognition system,ADRS)已经成为行业研究的焦点[9-11]。目前,智能硬件已经足够强大,同时价格低廉,更适合工业场景的应用,智能算法研究成为智能工业的研究热点[12-14]

本文针对石油天然气管道焊缝图像智能质检问题,基于YOLACT网络,采用轻量级的残差结构,降低模型的计算量,提高模型在硬件中的传导效率。引入像素统计机制,单独分离每个缺陷,精确计算每个缺陷面积。引入超高性能的腾讯开源的NCNN[15]优化机制,充分利用ARM芯片资源,建立工业场景下的便携式低成本专用智能焊缝评估设备,实现石油天然气管道焊接缺陷的精准识别和评估。

1 数字化智能评估系统

智能缺陷评估系统可以实时进行评估任务,不受网络环境的限制[16]图 1(a)是底片提取图像,图 1(b)从左至右依次为焊缝胶片、提取装置、数字化智能评估设备。本文智能缺陷分割系统的运算核心是基于ARM Cortex-A72架构的博通BCM2711,其具有较小的工艺几何结构、超低的电能损耗和强大运算处理能力。

图 1 智能评估系统设备 Fig. 1 Intelligent evaluation system equipment
2 CNN架构 2.1 模型架构

实例分割模型在提取缺陷特征时需要进行大量的计算,高性能图形处理器(graphic processing unit,GPU)具有并行运算结构,可以减少缺陷分割过程中所消耗的时间,但嵌入式设备的计算力相对较低,所以在构建缺陷分割网络时,要同时考虑网络的提取特征能力、网络参数量、网络执行效率等问题。

MYNet实例分割网络追求更高的速度和更少的参数量,采用轻量级的残差结构提取目标缺陷特征,残差结构可以有效利用中央处理器(central processing unit,CPU)的硬件资源,减少运算参数,同时保证特征信息的空间流动性,模型架构见图 2。根据焊缝缺陷目标小、对比度低、尺度变化大的特点,采用FPN(feature pyramid network)跨多层融合技术,P3、P4、P5层分别融合不同深度的特征信息,通道间信息合并,提高了图像整体感知能力。P5层继续进行深层次的特征提取,生成P6和P7层,获取更丰富更高级的特征。设定3个尺度的预选框,从大中小3个尺度识别底片缺陷,提高实例分割网络的辨识精度。

图 2 MYNet网络架构 Fig. 2 MYNet network architecture

MYNet实例分割网络将分割任务分解为两个子任务,并行的运算过程加快了分割网络的速度。如图 2所示,通过P3层获得一组与图像尺寸相等的原始蒙版,通过网络预测头产生原始空间中每个实例的蒙版系数,经过非极大值抑制(NMS)后的空间向量与原始蒙版线性组合,产生最终的高质量、高动态缺陷蒙版。原始蒙版和蒙版系数并行计算,分割器的计算开销主要来自线性合成过程,其可以实现为单个矩阵乘法。MYNet网络在视觉、空间和语义上学习缺陷特征,最终自行定位实例蒙版。

由于原型蒙版的数量与类别的数量无关,因此MYNet实例分割网络学习了一种分布式表示形式,其中每个实例都通过在类别之间共享的原型组合进行了细分,见图 3。例如:a1、b3主要学习缺陷外特征信息,b6、d4主要学习缺陷下面部分,b5、c6主要学习图像上部分,c4更加突出缺陷轮廓语义。由于这种分布式表示,原型在空间上对图像进行分区、定位、检测轮廓,最后产生编码位置敏感的方向图,将这些任务组合在一起,即实现缺陷的分割提取。

图 3 原型蒙版图像 Fig. 3 Mask images of prototypes
2.2 InvertedResidual结构

标准的卷积运算通过组合输入通道的语义信息,从而产生新的特征。如图 4所示,深度可分离卷积(depth separable convolution,DSC)将滤波和组合过程分解为两部分,以显著降低计算成本。首先对输入图像进行单通道滤波,过滤图像特征,单通道滤波效率极高,但不能结合各通道语义信息,为了生成新的特征,通过创建逐点深度卷积层进行线性运算,综合各通道特征。DSC的计算量P

$ P=h_{i} \cdot w_{i} \cdot d_{i}\left(k^{2}+d_{j}\right) $ (1)
图 4 深度可分离卷积结构 Fig. 4 Depth separable convolution structure

式中:k为卷积核大小,hi为特征图的高,wi为特征图的宽,di为特征图深度,dj为逐点卷积深度。

深度可分离卷积可以通过分离提取特征减少模型计算量,但也会损失图像特征。如图 5所示,将低维度图像的语义信息转换到高维度图像的语义信息,通过卷积(Conv)扩增维度的方式,保留更多缺陷信息,以平衡参数量与特征提取性能的关系。恢复图像到原始维度,张量维度的减小即意味着特征描述容量的下降,ReLU函数[17]有较高的概率使某一维度的张量值全为0,对低维度的张量造成较大的信息损耗,所以采用线性变换层进行维度转换。最后采用跳层连接的形式,融合图像底层信息,解决卷积神经网络的退化问题,保证缺陷信息传导通畅,加快缺陷提取网络的训练速度,优化梯度的空间结构。倒残差结构不仅保持图像特征在硬件平台的传导效率,而且更好保留了模型的表达能力。

图 5 InvertedResidual结构 Fig. 5 InvertedResidual structure
2.3 预测输出

焊缝图像在进入特征提取网络后会生成5种尺度的语义信息图,如图 2中P7所示,语义信息图上的单个像素点分配3种尺寸的候选锚框,最后会生成N个候选锚框。MYNet的每个候选锚框的预测输出包括目标框属性向量B,类别置信度向量C和蒙版系数向量F。求得每个候选框的最大类别置信度,根据分数排列类别和置信度顺序,过滤掉低于置信度阈值的候选框,使用NMS[18]过滤掉重叠的候选框,经过两次过滤后的候选框就是最终的目标检测框。为了能够通过线性组合来得到蒙版,需要根据蒙版分数对不同原型蒙版进行取舍,蒙版系数预测时使用tanh函数[8]进行非线性激活,tanh函数的分布范围为(-1,1)。候选框数N

$ N=3 \sum\limits_{i=1}^{5} w_{i} \cdot h_{i} $ (2)

式中: wi为特征图的宽度,hi为特征图的高度。

训练MYNet网络使其不断反向传播,最终降低损失函数的数值,获得最佳参数。损失函数由位置损失函数、类别置信度损失函数和蒙版系数损失函数组成,其中为了控制候选锚框与真实框之间的差别所导致的梯度值均衡问题,位置损失函数采用Smooth_L1函数[8]。由于缺陷面积小于非缺陷面积,在训练过程中,为了提高正负、难易样本的均衡性,类别置信度损失函数采用Focal_Loss函数[8]。最后将预测蒙版与真实蒙版进行像素级别的分类,蒙版系数损失函数为二进制交叉熵函数。损失函数为

$ L_{\mathrm{BCE}}=-\frac{1}{n} \sum\limits_{i=1}^{n}\left(t_{i} \times \ln o_{i}+\left(1-t_{i}\right) \times \ln \left(1-o_{i}\right)\right) $ (3)
$ L=L_{\mathrm{B}}+L_{\mathrm{C}}+L_{\mathrm{F}} $ (4)

式中:LBCE为二进制交叉熵, ti为目标信息, oi为输出信息,L为总损失函数,LB为位置损失函数,LC为类别置信度损失函数,LF为蒙版系数损失函数。

2.4 蒙版生成

将蒙版生成问题分解为两个并行的部分,有效提高分割网络运行速度,利用擅长产生语义向量的全连接层和擅长产生空间相干掩模的卷积层分别产生“蒙版系数”和“原型蒙版”。

图 6所示,输入向量是综合不同层次信息的P3层,更有利于小目标检测,容易产生质量高的蒙版。经过卷积运算,生成形状为(32,80,80)的原始蒙版三维矩阵,K是形状为(32,1)的蒙版系数矩阵。原始蒙版里一个像素点沿着通道方向的向量与长度为32的蒙版系数向量逐元素相乘,向量内积得到的数值作为输出图上的相同位置的像素点的数值。通过基本的矩阵乘法配合sigmoid函数[19]来处理两分支的输出,从而合成蒙版向量M。最后,网络在推理时会首先根据检测框进行裁剪(Crop),再阈值化(Threshold)。蒙版向量M

$ \boldsymbol{M}=\sigma\left(H C^{\mathrm{T}}\right) $ (5)
图 6 原始蒙版和蒙版系数 Fig. 6 Original mask and mask coefficient

式中:σ为sigmoid函数,H为原型蒙版集合,CT为蒙版系数集合的转置。

3 实验与分析 3.1 数据集

图像训练集由GDXray公共数据库和中国石油天然气管道科学研究院提供的缺陷底片共同组成。为了更好地训练样本,采用滑动窗口的方式获取缺陷图像信息,数据集包括2 085张宽高尺寸为320的焊缝缺陷图像,缺陷类型从上到下依次为未熔合(lof),未焊透(lop),气泡(p)和咬边(u),见图 7(a)

图 7 结果可视化 Fig. 7 Visualization of results
3.2 评价指标

通过蒙版平均准确率(mask average accuracy,MaskAP)和检测框平均准确率(box average accuracy,BoxAP)评价实验的准确性。通过缺陷每秒检测帧数(frames per second,FPS)评价模型推理速度。通过权重参数量评价模型是否适合特定硬件平台。准确率P

$ P=\frac{N_{\mathrm{TP}}}{N_{\mathrm{TP}}+N_{\mathrm{FP}}} $ (6)

式中:NTP为真实缺陷数预测为缺陷的个数,NFP为真实无缺陷数预测为缺陷的个数。

3.2 实验结果

1) 输出结果

通过加载训练自学习参数,MYNet实例分割网络可以精确检测不同类型的缺陷。图 7是4类缺陷的实例分割结果图,其中, 图 7(a)列是缺陷原图,图 7(b)列是线性加权后的原始蒙版,图 7(c)列是检测框结果,图 7(d)列是实例分割结果,图 7(e)列是同时进行检测和分割的结果,图 7(f)列是缺陷的单独提取,以统计每一个缺陷特征的不同面积,为了更好地可视化气泡实例的提取结果,将两个不同实例的气泡缺陷合并在同一张图片展示。输出结果表明,未熔合和未焊透缺陷对比度较低,其检测框的置信度低于气泡的置信度。气泡的检测置信度较高,表明MYNet网络可以有效检测小目标缺陷。

为了对缺陷进行更准确地评估,网络自动读取缺陷位置信息和边框轮廓信息。首先统计图片中缺陷实例的个数,使用开源跨平台计算机视觉库OpenCV中的中心距函数、检测轮廓函数、轮廓面积函数,计算每个缺陷的面积信息。然后计算图像总像素点数,从而得出焊缝缺陷面积占总图像面积的比例数。基于像素点的分类和统计机制,MYNet网络可以精确评估每个焊缝缺陷,结果见表 1

表 1 焊缝缺陷评估表 Tab. 1 Weld defect evaluation form

2) 网络对比

同时对准确性较高的二阶段实例分割网络Mask R-CNN和MS R-CNN网络进行实验, 结果见表 2。实验显卡环境为NVIDIA GeFore GTX TITAN。

表 2 实例分割网络对比 Tab. 2 Comparison of instance segmentation networks

针对焊缝数据集缺陷尺度变化大、对比度低、小目标等特点,测试网络均采用FPN跨层融合结构。其中,Mask R-CNN和MS R-CNN网络先产生候选区域[6-7],之后对每个候选区域进行检测分割。相比于Mask R-CNN使用类别置信度作为分割依据,MS R-CNN网络将蒙版的交并比与分类置信度相乘得到蒙版分数[7],进一步提升了实例分割的准确性。

表 2可知,虽然二阶段分割网络的蒙版准确率、检测框准确率和置信度都较高,但两阶段实例分割网络速度较慢,网络前向推理需要计算的参数较多,很难满足特定硬件平台下的焊接质检需求,轻量级实例分割网络更适合焊接侧端设备。如图 7所示,未焊透等缺陷对比度较低,单阶段网络没有二阶段网络的候选区结构,较深的特征提取网络更容易丢失低对比度缺陷信息,相比于实例分割网络YOLACT中的深度残差结构,本文通过扩增维度的方式保留了更多低对比度的缺陷信息,所以MYNet网络取得了更高的MaskAP准确率。相比于准确率较高的二阶段实例分割网络MS R-CNN,本文提出网络准确率仅下降1.93%,但可以达到实时的分割速度,其网络权重体积仅为MS R-CNN网络的1/14,网络执行所需计算力更低,更有利于质检网络低成本部署。

3) 边缘设备部署

MYNet实例分割网络参数量极低,特征向量在硬件架构上传导速度较快,可以在低成本硬件上进行部署应用,而二阶段网络因其结构和参数限制,低成本硬件很难支撑网络算力的需求。网络引入NCNN机制极大利用硬件的资源,减少前向传播的时间损耗。分别测试不同线程和不同硬件频率下网络前向推理速度,网络在低成本硬件上的运行时间见表 3

表 3 推理时间对比 Tab. 3 Comparison of reasoning time

在2.0 GHz,1线程的CPU硬件条件下,主干网络为R-50-FPN的YOLACT网络前向推理时间为7.08 s,在同样环境下的残差结构网络提升了309%的特征提取速度,其中1.75 s的检测速度足以满足实时性不高的焊缝缺陷底片分割任务。

表 2可知,MYNet网络的计算量仅为YOLACT的1/3,速度也应大幅提高,在GPU环境下应用残差结构的网络仅仅快了3.1帧/s,原因在于GPU为并行运算机制,计算平台的算力S和带宽β较高,网络计算强度I远远低于计算平台的计算强度上限,MYNet没有充分利用计算机性能,嵌入式平台的计算强度上限较低,在NCNN的机制下两者都充分利用了硬件资源,MYNet的速度优势才能体现。模型计算强度I和模型实际性能Z为:

$ I_{\max }=\frac{S}{\beta} $ (7)
$ \begin{gathered} Z=\left\{\begin{array}{l} \beta \cdot I, I<I_{\max } \\ S, I \geqslant I_{\max } \end{array}\right. \end{gathered}$ (8)

式中:Imax为计算平台的计算强度上限,S为计算平台算力,β为计算平台带宽。

4 结论

1) 将低延迟残差结构和并行蒙版生成机制相结合,加快了实例分割速度,使得MYNet实例分割网络在准确分割的前提下,具有较高速度。

2) 针对ARM架构的CPU核心,采用NCNN前向推理机制,实现了在低成本硬件运行实例分割网络,提高了算法的实用性。

3) MYNet网络不仅可以精确检测和分割不同类型缺陷,还可以统计缺陷类型数量、单独计算每个缺陷的面积和缺陷百分比,MYNet焊缝缺陷评估网络有效降低了工程人员识别焊缝缺陷过程中的主观不确定性。

参考文献
[1]
LE Xinyi, MEI Junhui, ZHANG Haodong, et al. A learning-based approach for surface defect detection using small image datasets[J]. Neurocomputing, 2020, 408: 112. DOI:10.1016/j.neucom.2019.09.107
[2]
MALARVEL M, SETHUMADHAVAN G, BHAGI P C R, et al. An improved version of Otsu's method for segmentation of weld defects on X-radiography images[J]. Optik, 2017, 142: 109. DOI:10.1016/j.ijleo.2017.05.066
[3]
迟大钊, 马子奇, 程怡, 等. 不等厚板搭接焊缝缺陷数字X射线检测[J]. 焊接学报, 2019, 40(11): 45.
CHI Dazhao, MA Ziqi, CHENG Yi, et al. Digital X-ray detection of lap weld defects in unequal-thickness plates[J]. Transactions of the China Welding Institution, 2019, 40(11): 45. DOI:10.12073/j.hjxb.2019400286
[4]
YAN Z H, XU H, HUANG P F. Multi-scale multi-intensity defect detection in ray image of weld bead[J]. NDT & E International, 2020, 116: 102342. DOI:10.1016/j.ndteint.2020.102342
[5]
HOU Wenhui, ZHANG Dashan, WEI Ye, et al. Review on computer aided weld defect detection from radiography images[J]. Applied Sciences, 2020, 10(5): 1878. DOI:10.3390/app10051878
[6]
HE Kaiming, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2961. DOI: 10.1109/ICCV.2017.322
[7]
HUANG Zhaojin, HUANG Lichao, GONG Yongchao, et al. Mask scoring R-CNN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6409. DOI: 10.1109/CVPR.2019.00657
[8]
BOLYA D, ZHOU Chong, XIAO Fanyi, et al. YOLACT: Real-time instance segmentation[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9157. DOI: 10.1109/ICCV.2019.00925
[9]
WANG Xiaofei, HAN Yiwen, WANG Chenyang, et al. In-Edge AI: Intelligentizing mobile edge computing, caching and communication by federated learning[J]. IEEE Network, 2019, 33(5): 156. DOI:10.1109/MNET.2019.1800286
[10]
LI En, ZENG Liekang, ZHOU Zhi, et al. Edge AI: On-demand accelerating deep neural network inference via edge computing[J]. IEEE Transactions on Wireless Communications, 2019, 19(1): 447. DOI:10.1109/TWC.2019.2946140
[11]
MAZZIA V, KHALIQ A, SALVETTI F, et al. Real-time apple detection system using embedded systems with hardware accelerators: An Edge AI application[J]. IEEE Access, 2020, 8: 9102. DOI:10.1109/ACCESS.2020.2964608
[12]
FUKETA H, UCHIYAMA K. Edge artificial intelligence chips for the cyberphysical systems era[J]. Computer, 2021, 54(1): 84. DOI:10.1109/MC.2020.3034951
[13]
HAO Cong, DOTZEL J, XIONG Jinjun, et al. Enabling design methodologies and future trends for Edge AI: specialization and co-design[J]. IEEE Design & Test, 2021, 38(4): 7. DOI:10.1109/MDAT.2021.3069952
[14]
徐欣, 刘强, 王少军. 一种高度并行的卷积神经网络加速器设计方法[J]. 哈尔滨工业大学学报, 2020, 52(4): 31.
XU Xin, LIU Qiang, WANG Shaojun. A highly parallel design method of convolutional neural network accelerator[J]. Journal of Harbin Institute of Technology, 2020, 52(4): 31. DOI:10.11918/201812159
[15]
WANG Siqi, ANANTHANARAYANAN G, ZENG Yifan, et al. High-throughput CNN inference on embedded ARM Big. LITTLE multicore processors[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2019, 39(10): 2254. DOI:10.1109/TCAD.2019.2944584
[16]
SHI Yuanming, YANG Kai, JIANG Tao, et al. Communication-efficient Edge AI: algorithms and systems[J]. IEEE Communications Surveys & Tutorials, 2020, 22(4): 2167. DOI:10.1109/COMST.2020.3007787
[17]
PETERSEN P, VOIGTLAENDER F. Optimal approximation of piecewise smooth functions using deep ReLU neural networks[J]. Neural Networks, 2018, 108: 296. DOI:10.1016/j.neunet.2018.08.019
[18]
LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]//European conference on computer vision. Cham: Springer, 2016: 21. DOI: 10.1007/978-3-319-46448-0_2
[19]
LANGER S. Approximating smooth functions by deep neural networks with sigmoid activation function[J]. Journal of Multivariate Analysis, 2021, 182: 104696. DOI:10.1016/J.JMVA.2020.104696