Foreign object detection of coal mine conveyor belt based on improved YOLOv8
-
摘要: 现有基于深度学习的输送带异物检测模型较大,难以在边缘设备部署,且对不同尺寸异物和小目标异物存在错检、漏检情况。针对上述问题,提出一种基于改进YOLOv8的煤矿输送带异物检测方法。采用深度可分离卷积、压缩和激励(SE)网络将YOLOv8主干网络中C2f模块的Bottleneck重新构建为DSBlock,在保持模型轻量化的同时提升检测性能;为增强对不同尺寸目标物体信息的获取能力,引入高效通道注意力(ECA) 机制,并对ECA的输入层进行自适应平均池化和自适应最大池化操作,得到跨通道交互MECA模块,以增强模块的全局视觉信息,进一步提升异物识别精度;将YOLOv8的3个检测头修改为4个轻量化小目标检测头,以增强对小目标的敏感性,有效降低小目标异物的漏检率和错检率。实验结果表明:改进YOLOv8的精确度达91.69%,mAP@50达92.27%,较YOLOv8分别提升了3.09%和4.07%;改进YOLOv8的检测速度达73.92帧/s,可充分满足煤矿输送带异物实时检测的需求;改进YOLOv8的精确度、mAP@50、参数量、权重大小和每秒浮点运算数均优于SSD,Faster-RCNN,YOLOv5,YOLOv7−tiny等主流目标检测算法。Abstract: The existing deep learning based foreign object detection models for conveyor belts are relatively large and difficult to deploy on edge devices. There are errors and omissions in detecting foreign objects of different sizes and small objects. In order to solve the above problems, a foreign object detection method for coal mine conveyor belts based on improved YOLOv8 is proposed. The depthwise separable convolution, squeeze-and-excitation (SE) networks are used to reconstruct the Bottleneck of the C2f module in the YOLOv8 backbone network as a DSBlock, which improves the detection performance while keeping the model lightweight. To enhance the capability to obtain information from objects of different sizes, an efficient channel attention (ECA) mechanism is introduced. The input layer of ECA is subjected to adaptive average pooling and adaptive maximum pooling operations to obtain a cross channel interactive MECA module, which enhances the global visual information of the module and further improves the precision of foreign object recognition. The method modifies the 3 detection heads of YOLOv8 to 4 lightweight small object detection heads to enhance sensitivity to small objects and effectively reduce the missed and false detection rates of small object foreign objects. The experimental results show that the improved YOLOv8 achieves a precision of 91.69%, mAP@50 reached 92.27%, an increase of 3.09% and 4.07% respectively compared to YOLOv8. The detection speed of improved YOLOv8 reaches 73.92 frames/s, which can fully meet the demand for real-time detection of foreign objects on conveyor belts in coal mines. The improved YOLOv8 outperforms mainstream object detection algorithms such as SSD, Faster-RCNN, YOLOv5, and YOLOv7-tiny in terms of precision, mAP@50, number of parameters, weight size, and number of floating point operations.
-
0. 引言
近年来中国的能源结构正在逐步优化升级,但煤炭依然扮演着能源保障的核心角色[1-3]。在煤炭开采过程中不可避免地会混入煤矸,这不仅会降低煤炭品质,还会影响环境与生态,并有可能触发山体滑坡等灾害。因此,准确快速地识别煤矸是进行有效分拣的基础,也是选煤厂智能化选煤技术研究的一个焦点[4-5]。传统的煤矸分选技术包括人工分拣、射线法、重介法和跳汰分选法等,这些方法通常效率较低且易造成环境污染[6-9]。随着深度学习技术的进展,基于目标检测技术的物体识别方法开始在工业领域得到广泛应用。
目前深度学习与煤矸检测结合的研究已取得一定的成果。蔡秀凡等[10]通过修改K−means初始锚框参数与增加一个检测通道,降低了小块煤矸漏检率与误检率,但检测结果的鲁棒性有待检验。来文豪等[11]选取多光谱系统中的3个波段创建煤矸图像数据集,并基于改进的YOLOv4模型检测煤矸,但模型检测时间偏长,影响了检测的实时性。高如新等[12]对YOLOv5s模型的损失函数进行优化,提高了边界框检测的准确率,但并未提升煤矸的检测速度。郑道能[13]引入空洞卷积替代tiny YOLOv3模型中部分卷积层,扩大模型感受野,提高了模型计算速度,但对检测小块煤矸不太友好。陈彪等[14]将YOLOX−S主干网络替换为Ghost−S结构,并用SIoU边界框损失函数代替原损失函数,提高了模型的特征提取能力和准确率,但没有解决复杂环境下煤矸检测精度较低的问题。桂方俊等[15]将YOLOv5m模型的Neck部分修改为双向特征金字塔结构,提高了模型的检测速度,但特征提取不充分,降低了煤矸的检测精度。张释如等[16]通过在YOLOv5s模型的Backbone中引入空洞卷积和残差块优化空间金字塔池化(Spatial Pyramid Pooling, SPP)模块结构,强化多尺度特征融合,提高了对小目标煤矸的检测精度,降低了煤矸识别的误检率和漏检率,但网络的参数较多,对模型的检测速度影响较大。张磊等[17]在YOLOv5s中将普通卷积替换为深度可分离卷积,显著降低了模型的参数量和计算量,提高了煤矸检测速度,但降低了模型的特征提取能力,影响了模型的检测精度。
针对上述问题,本文提出了一种基于YOLOv5s−FSW模型的煤矸检测方法。首先,在主干网络中引入FasterNet Block结构,以减少模型的参数量和计算量,从而提高检测速度。然后,在颈部网络添加无参型SimAM注意力机制来提高模型的特征提取能力,特别是复杂环境中的煤矸检测精度。最后,采用Wise−IoU(Wise-Intersection over Union)损失函数替代CIoU(Complete Intersection over Union),以提高模型的收敛速度和边界框定位精度。
1. YOLOv5s−FSW模型建立
1.1 YOLOv5基础模型选择
YOLOv5共有YOLOv5n,YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x 5个版本,其网络结构主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、输出端(Prediction)4个部分组成[18-19]。输入端主要对输入数据进行预处理。主干网络通过一系列卷积层、池化层和快速空间金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)对特征图进行不同尺度的特征提取和融合,以提升模型的检测精度。颈部网络通过自顶向下传递语义信息和自底向上传递位置信息进行不同特征的融合,提高模型检测能力。输出端输出计算得到的网络预测结果。从YOLOv5n开始,模型的检测精度逐步提高,但模型深度和模型宽度也在依次增大,导致模型复杂度和参数量增大,影响了检测速度。由于采煤和运煤现场大都为算力较低的嵌入式设备,难以满足部署大模型的条件。综合对模型检测精度、速度及算力的考虑,本文选用YOLOv5s作为基础模型。
1.2 YOLOv5s−FSW模型
YOLOv5s−FSW模型是在YOLOv5s基础上改进而来,其网络结构如图1所示。将主干网络中的部分C3模块替换为FasterNet Block结构,降低参数量和计算量。在颈部网络添加SimAM注意力机制,使模型聚焦目标有效特征,降低对无关信息的关注度。在输出端采用Wise−IoU替换CIoU边界框损失函数,提高模型的定位精度和收敛速度。
1.2.1 FasterNet Block结构
在YOLOv5s中,主干网络主要包括Conv模块、SPPF模块、C3模块。Conv模块包括卷积(Conv2d)层、批量归一化(Batch Normalization,BN)层和SILU激活函数;SPPF模块可处理输入图像并获得多尺度的特征表示;C3模块可增加网络的深度和感受野,提高模型的特征提取能力,但C3模块的参数量较大、计算复杂度高,影响模型检测速度,难以满足选煤厂煤矸检测任务的实时性要求。因此,本文采用FasterNet Block结构[20]替换主干网络中部分C3模块,通过降低内存访问量和计算量来提升模型的检测速度。
FasterNet Block为由1个部分卷积(Partial Convolution,PConv)层和2个逐点卷积(Point−Wise Convolution,PWConv)层组成的倒置残差块结构,如图2所示,其中*为卷积运算。FasterNet Block结构通过PConv层对输入特征的部分通道进行空间特征提取,维持其余通道不变,并将首个或尾个连续通道作为整个特征图的表征进行计算,在保证一般性的同时,维持输入和输出特征的通道数一致。PConv层通过减少冗余计算和内存访问实现降低计算量,从而提高模型计算速度和运行速度。为充分利用不同通道的所有信息,在PConv层后引入2个PWConv层对特征通道进行操作,第1个PWConv层用于减少特征图的通道数,降低计算成本,第2个PWConv层用于恢复特征通道数,并将空间信息和通道信息融合,以提高网络的表达能力。为保证模型的特征多样性并实现更低的延迟,将BN层和ReLU激活函数放置在2个PWConv层之间,以提高模型性能。
FasterNet Block中PConv层的计算量为
$$ F = h w {k^2} c_{\mathrm{p}}^2 $$ (1) 式中:h和w分别为输入特征图的高和宽;k为PConv层的卷积核大小;cp为PConv层作用于输入特征图的通道数,cp通常取输入特征图通道数c的1/4,此时PConv层的计算量为常规卷积的1/16,同时内存访问量仅为常规卷积的1/4,其内存访问量为
$$ f=2h w {c_{\mathrm{p}}} + {k^2} c_{\mathrm{p}}^2 \approx 2h w {c_{\mathrm{p}}}$$ (2) 1.2.2 SimAM注意力机制
YOLOv5s提取输入图像特征时无法对不同的通道信息实行不同程度的关注,影响模型的检测精度。煤矸检测任务中目标之间特征差异小,尤其在选煤厂、煤矿井下等复杂场景中目标与背景区分度小,影响模型对煤矸目标的特征提取能力,导致模型检测精度低,甚至出现误检、漏检的现象。本文在颈部网络中添加注意力机制以增强模型的特征提取能力。深度学习中的注意力机制是一种常用的数据处理技术,通过从众多信息中选出对当前任务最关键的信息并抑制不相关的次要信息,增强网络的特征提取能力,提升模型识别的效率和准确率。常见的注意力机制如压缩和激励注意力机制(Squeeze-and-Excitation,SE)[21]、卷积块注意力机制(Convolutional Block Attention Module,CBAM)[22]和高效通道注意力机制(Efficient Channel Attention,ECA)[23]等均是基于通道维度或空间维度进行权重分配,且会在网络中带入额外的参数,既限制了注意力权重学习的灵活性,又增加了网络结构的复杂性。与传统的通道注意力和空间注意力相比,SimAM注意力机制在不向网络添加参数的情况下,可根据能量函数直接计算特征图的三维权重,其原理如图3所示[24]。
SimAM通过计算神经元的能量函数,为每个神经元分配唯一权重,以度量目标神经元和其他神经元的线性可分性,从而找到含有最大信息量的神经元,并依据神经元的重要性实现注意力权重的计算,具体的神经元能量函数为
$$ e_t^* = \frac{{4\left( {{{\hat \sigma }^2} + \lambda } \right)}}{{{{(t - \hat \mu )}^2} + 2{{\hat \sigma }^2} + 2\lambda }} $$ (3) 式中:$ \hat{\sigma } $2和$ \hat{\mu } $分别为当前通道所有神经元的方差和均值;λ为超参数;t为输入特征的目标神经元。
$$ \hat \mu = \frac{1}{M}\sum\limits_{i = 1}^M {{x_i}} $$ (4) $$ {\hat \sigma ^2} = \frac{1}{M}\sum\limits_{i = 1}^M {{{\left( {{x_i} - \hat \mu } \right)}^2}} $$ (5) 式中:M为当前通道上所有神经元个数;xi为输入特征目标神经元的第i个相邻神经元。
由式(3)可知,$e_t^* $越小,目标神经元与其相邻神经元的差异越明显,表明该目标神经元的重要性越高,其重要性可由1/$e_t^* $表示。对输入特征进行增强处理。
$$ \widetilde {\boldsymbol{X}} = {\text{Sigmoid}}\left(\frac{1}{{\boldsymbol{E}}}\right) \odot {\boldsymbol{X}} $$ (6) 式中:$ \widetilde{{\boldsymbol{X}}} $为通过Sigmoid函数限制注意力权重的异常值后与输入特征相乘得到的增强特征;E为每个通道维度上的能量函数矩阵;⊙为点积运算;X为输入特征。
1.2.3 Wise−IoU边界框损失函数
目标检测中通常使用交并比(Intersection over Union,IoU)[25]判断网络预测框的准确性,但IoU无法体现预测框和真实框之间的距离信息及长宽比的相似性。YOLOv5s以CIoU为边界框损失函数[26]。CIoU使用预测框和真实框的宽高比作为惩罚项,并考虑了边界框回归时重叠面积、中心点距离及长宽比3个重要因素,使模型在边界框回归时不仅只关注边界框的大小,还关注边界框的形状,有助于更准确地定位目标的边界,但计算复杂,且默认样本的质量较高,导致模型收敛速度较慢、泛化能力较差,阻碍了模型的优化。由于煤矸目标与背景相似,且存在相互重叠与遮挡等问题,人工标注图像数据时难免会产生一些低质量标注框,影响模型的检测精度与稳定性。若低质量样本较多,一味地增强边界框回归会使模型检测性能下降。因此本文在输出端采用Wise−IoU[27]边界框损失函数(式(7))代替CIoU。Wise−IoU引入了动态聚焦机制,并能根据当前情况计算出最适合的梯度增益分配策略,通过离群度判断锚框的质量,给高质量和低质量锚框分配较小的梯度增益,从而使模型更加关注普通质量的锚框,整体提高模型的检测性能。
$$ {{L}_{{\mathrm{WIoU}}}} = r{{R}_{{\mathrm{WIoU}}}}{\mathcal{L}_{{\mathrm{IoU}}}} $$ (7) $$ r = \frac{\beta }{{\delta {\alpha ^{\beta - \delta }}}} $$ (8) $$ {{R}_{{\mathrm{WIoU}}}} = {\mathrm{exp}}\left( {\frac{{{{\left( {x - {x_{{\mathrm{gt}}}}} \right)}^2} + {{\left( {y - {y_{{\mathrm{gt}}}}} \right)}^2}}}{{{{\left( {W_{\mathrm{g}}^2 + H_{\mathrm{g}}^2} \right)}^*}}}} \right) $$ (9) 式中:${{L}_{{\mathrm{WIoU}}}} $为动态损失函数;r为非单调聚焦系数;RWIoU为权重系数惩罚项;$ {\mathcal{L}}_{{\mathrm{IoU}}} $为预测框和标注框重叠面积的IoU;β为描述锚框质量的离群度因子,$ \beta = \dfrac{{\mathcal{L}_{{\mathrm{IoU}}}^*}}{{ {{\overline{\mathcal{L}}_{{\mathrm{IoU}}}}} }} \in [0, + \infty ) $,$ \mathcal{L}_{{\mathrm{IoU}}}^* $为预测框和真实框之间的IoU阈值,$ {\overline{\mathcal{L}}_{{\mathrm{IoU}}}} $为$ {\mathcal{L}}_{{\mathrm{IoU}}} $的均值;δ和$ \alpha $为超参数;(x,y)为预测框的中心点坐标;(xgt,ygt)为标注框的中心点坐标;Wg和Hg分别为预测框和标注框最小外接矩形的宽和高。
将式(8)和式(9)代入式(7)得
$$ {{L}_{{\mathrm{WIoU}}}} = \frac{\beta }{{\delta {\alpha ^{\beta - \delta }}}}{\mathrm{exp}}\left( {\frac{{{{\left( {x - {x_{{\mathrm{gt}}}}} \right)}^2} + {{\left( {y - {y_{{\mathrm{gt}}}}} \right)}^2}}}{{{{\left( {W_{\mathrm{g}}^2 + H_{\mathrm{g}}^2} \right)}^*}}}} \right){\mathcal{L}_{{\mathrm{IoU}}}} $$ (10) 2. 实验分析
2.1 数据采集
为验证模型的有效性,在山西大同某煤矿井下现场和煤炭仿真实验室共采集1 263张分辨率为1 280×960的煤矸图像。图像目标中包括单块煤、单块矸石及多块煤与矸石相互遮挡等场景。为确保数据集的质量和可用性,删除不清晰及质量较差的图像,将剩余的1 133张煤矸图像用LabelImg软件进行标注,并保存为煤矸数据集,如图4所示。将自制数据集按照8∶1∶1的比例划分为训练集、验证集和测试集,其中训练集918张、验证集106张、测试集109张。为了加快训练速度,将数据集分辨率统一调整为640×480。
2.2 模型训练
煤矸目标检测实验使用的操作系统为Windows 11,CPU为Intel(R) Xeon(R) E5−2686 v4,显卡为NVIDIA GeForce RTX 3060,显存为12 GiB。深度学习框架为PyTorch1.13.1,CUDA版本为11.6,Python版本为3.8.10。实验模型训练参数设置如下:学习率初始值为0.01,学习率周期为0.2,动量因子为0.937,权重衰减系数为0.000 5,批处理大小为32,迭代次数为300。
2.3 消融实验
为了观察模型各组件的重要性和贡献度,利用测试集进行消融实验。为了保证实验的一致性,各改进模型除了改进部分有所不同,其余部分相对YOLOv5s基础模型保持不变。改进模型1为采用FasterNet Block结构替换YOLOv5s主干网络的部分C3模块;改进模型2为在YOLOv5s的颈部网络添加SimAM注意力机制;改进模型3为用Wise−IoU代替CIoU边界框损失函数,实验结果见表1。
表 1 消融实验结果Table 1. Ablation experiment results模型 精确率/% 召回率/% mAP/% 权重/MiB 计算量 参数量/105 检测速度/(帧·s−1) YOLOv5s 89.9 88.6 93.9 13.7 15.8 70.2 30.5 改进模型1 89.6 85.1 93.5 13.1 14.3 66.9 37.8 改进模型2 89.9 89.1 94.2 13.7 15.8 70.2 29.1 改进模型3 91.1 89.7 95.3 13.7 15.8 70.2 28.3 YOLOv5s−FSW 91.8 90.1 95.8 13.1 14.3 66.9 36.4 由表1可看出,改进模型1的参数量、权重、计算量较YOLOv5s分别减少了4.7%,4.4%,9.5%,检测速度较YOLOv5s提高了23.9%,但模型的平均精度均值(mean Average Precision,mAP)较YOLOv5s降低了0.4%,这是由于将主干网络部分C3模块替换为FasterNet Block结构后,降低了冗余计算量和内存访问量,参数量和计算量下降,提高了模型的检测速度,但模型的检测精度略微下降。改进模型2的召回率、mAP较YOLOv5s分别提升了0.5%,0.3%,检测速度较YOLOv5s降低了4.6%,这是由于颈部网络添加SimAM注意力机制,在不增加参数量和计算量的情况下,模型能聚焦特征差异,准确地捕捉特征间的交互信息,增强网络特征提取能力,提高了模型的检测精度。改进模型3的精确率、召回率、mAP较YOLOv5s分别提高了1.2%,1.1%,1.4%,说明采用Wise−IoU代替CIoU边界框损失函数,模型聚焦普通质量的锚框回归,提高了模型定位精度、收敛速度和稳定性。YOLOv5s−FSW模型的参数量、权重、计算量较YOLOv5s分别减少了4.7%,4.4%,9.5%,mAP、检测速度较YOLOv5s分别提高了1.9%,19.3%,表明YOLOv5s−FSW模型降低了参数量和计算量,提高了检测精度和检测速度,更加适合选煤厂复杂环境下的煤矸检测任务。
2.4 对比实验
为进一步验证YOLOv5s−FSW模型对煤矸的检测性能,在同一实验环境下设置了对比实验。对比实验的检测模型选取YOLOv5算法变体YOLOv5s−CBC[12]、YOLOv5s−ASA[16]、YOLOv5s−SDE[17]及主流目标检测模型YOLOv5m,YOLOv6s,YOLOv7。YOLOv5s−CBC模型在主干网络中添加CBAM注意力机制,颈部网络采用BiFPN结构,使用CIoU替换DIoU(Distance Intersection over Union,距离交并比)损失函数;YOLOv5s−ASA模型使用残差ASPP(Atrous Spatial Pyramid Pooling,空洞空间金字塔池化)模块替换SPP模块,AdaBelief优化算法代替Adam优化算法;YOLOv5s−SDE模型在主干网络中添加SE注意力模块,在颈部网络用深度可分离卷积替换普通卷积,然后将CIoU损失函数替换为EIoU。在同一实验环境下对各目标检测模型进行多轮训练和测试,对比实验结果见表2。
表 2 不同检测模型性能对比Table 2. Performance comparison of different detection models模型 mAP/% 权重/MiB 计算量 检测速度/(帧·s−1) YOLOv5s−CBC 94.7 15.3 15.9 28.4 YOLOv5s−ASA 94.3 13.4 15.6 30.2 YOLOv5s−SDE 94.6 12.7 12.1 37.8 YOLOv5s 93.9 13.7 15.8 30.5 YOLOv5m 95.5 40.2 47.9 31.3 YOLOv6s 95.2 38.7 45.2 31.6 YOLOv7 96.1 71.3 105.2 25.1 YOLOv5s−FSW 95.8 13.1 14.3 36.4 由表2可看出,YOLOv5s−FSW模型的mAP较YOLOv5s−CBC、YOLOv5s−ASA、YOLOv5s−SDE模型分别提高了1.1%、1.5%和1.2%,但计算量较YOLOv5s−SDE模型增大了18.2%,检测速度降低了3.7%,YOLOv5s−FSW模型的计算量较YOLOv5s−CBC和YOLOv5s−ASA模型分别减少了10.1%和8.3%,检测速度分别提高了28.2%和20.5%;YOLOv5s−FSW模型的mAP较YOLOv5m,YOLOv6s模型分别提高了0.3%,0.6%,检测速度分别提高了16.3%与15.2%,权重分别减少了27.1,25.6 MiB,计算量分别减少了70.1%与68.4%。与YOLOv7模型对比,虽然YOLOv5s−FSW模型的mAP降低了0.3%,但权重减少了58.2 MiB,计算量减少了86.4%,检测速度提高了45.0%。对比实验结果表明,针对类似改进YOLOv5模型及其他YOLO模型变体,本文提出的YOLOv5s−FSW模型在检测精度和检测速度上性能更加均衡,满足选煤厂煤矸检测需求。
2.5 热力图可视化实验
为了直观地展现模型对煤矸目标检测区域的关注度,本文分别采用YOLOv5s模型与YOLOv5s−FSW模型融合Grad−CAM算法对煤矸测试图像进行热力图可视化实验,分析模型对煤矸目标检测区域的关注,结果如图5所示。红色高亮区域表示模型提取煤矸目标特征时重点关注的区域,煤矸表面红色高亮区域颜色越深、覆盖越广,表示模型对煤矸目标区域的关注度越高。从图5可看出,YOLOv5s−FSW模型较YOLOv5s模型对煤矸目标特征区域更加敏感,且关注度更高。
2.6 煤矸检测实验
为了进一步验证YOLOv5s−FSW模型的检测实用性,收集了山西大同某煤矿井下现场拍摄的煤矸图像,并与从实验室采集的测试集图像中挑选出具有代表性的煤矸图像分别对YOLOv5s和YOLOv5s−FSW模型进行测试。本文所用的测试图像包括环境昏暗、图像模糊、目标相互遮挡3种复杂场景,模型检测效果如图6所示。可看出在环境昏暗的场景下,图像中有2块矸石和3块煤,YOLOv5s模型对煤的检测精度偏低(置信度得分小于0.8),且出现了1块煤误检为矸石(置信度得分为0.37)和漏检1块煤的情况,而YOLOv5s−FSW模型正确检测出了全部煤和矸石目标,且置信度得分较高;在图像模糊的场景下,图像中有2块矸石和2块煤,YOLOv5s模型漏检了1块煤,而YOLOv5s−FSW模型正确检测出了煤和矸石目标,且置信度得分高于YOLOv5s模型;在目标相互遮挡的场景下,图像中的目标都为煤,虽然YOLOv5s模型正确检测出了全部目标,但有一半目标数量的置信度得分小于0.9,而YOLOv5s−FSW模型不但检测出了全部目标,而且置信度得分大于0.94。综合上述分析可知,YOLOv5s−FSW模型在引入SimAM注意力机制、使用Wise−IoU损失函数后,增强了模型对复杂场景的抗干扰能力和特征提取能力,使其能够在选煤厂环境昏暗、图像模糊、目标相互遮挡等复杂场景下展现良好的检测性能,避免了误检与漏检现象的发生。
3. 结论
1) 为解决煤矸检测精度低与速度慢的问题,提出了一种基于YOLOv5s−FSW模型的煤矸检测方法。在YOLOv5s的主干网络融合FasterNet Block模块,模型参数量和计算量分别降低了4.7%与9.5%,模型权重减少了4.4%,检测速度提高了23.9%;颈部网络引入无参型SimAM注意力机制,使模型聚焦煤矸目标特征的关键信息,模型mAP提高了0.3%;输出端用Wise−IoU代替CIoU边界框损失函数,使模型聚焦普通质量的锚框回归,提高了煤矸预测框的定位精度,mAP提高了1.4%,增强了模型的鲁棒性。
2) 与同类型改进模型相比,YOLOv5s−FSW模型的mAP较YOLOv5s−CBC,YOLOv5s−ASA,YOLOv5s−SDE模型分别提高了1.1%,1.5%,1.2%。与YOLOv5s模型相比,YOLOv5s−FSW模型的精确率达到91.8%,mAP提高了1.9%,检测速度提高了19.3%,参数量减少了4.7%,模型权重降低了4.4%。与YOLOv5m与YOLOv6s模型相比,YOLOv5s−FSW模型的mAP和检测速度均有提高,参数量、计算量和模型权重有所下降;与YOLOv7相比,虽然YOLOv5s−FSW模型的mAP降低了0.3%,但计算量减少了86.4%,检测速度提高了45.0%,模型权重减少了58.2 MiB,仅为13.1 MiB,有利于模型的快速移植和部署。
3) 热力图对比实验和煤矸石检测实验分别显示:YOLOv5s−FSW模型对煤矸目标特征区域更加敏感且关注度更高;在环境昏暗、图像模糊、目标相互遮挡的复杂场景下,采用YOLOv5s−FSW模型进行煤矸目标检测的置信度得分均高于YOLOv5s模型,并有效避免了误检和漏检现象的发生,表现出良好的检测性能。
-
表 1 实验硬件配置
Table 1 Experimental hardware configuration
实验环境 配置 操作系统 Windows 10 CPU Intel(R) Core(TM)i5−13490F CPU@2.50 GHz GPU NVIDIA GeForce GTX 4060(8 G) 深度学习框架 PyTorch 1.9.1+CUDA 11.1+CUDNN 8.0.5 编译器 Python 3.8.18 内存 32 GiB 表 2 消融实验结果
Table 2 Ablation experiment results
序号 A B C D E 精确度/% 召回率/% mAP@50/% mAP@50∶95/% 参数量/
106个权重大小/
MiB每秒浮点
运算数/109速度/
(帧·s−1)1 × × × × × 88.60 80.19 88.20 56.70 3.00 6.3 8.1 162.55 2 √ × × × × 89.25 83.09 89.36 58.62 3.00 6.3 8.1 163.23 3 √ √ × × × 89.45 87.98 92.32 59.94 2.68 5.5 6.9 156.68 4 √ √ √ × × 89.02 86.26 92.96 62.21 2.79 5.9 11.7 94.49 5 √ √ √ √ × 92.03 84.30 91.92 60.89 2.79 5.9 11.7 111.26 6 √ √ √ √ √ 91.69 83.25 92.27 61.59 2.34 5.0 6.2 73.92 表 3 主流算法对比结果
Table 3 Comparison results of mainstream algorithms
算法 精确度/% mAP@50/% 参数量/
106个权重大小/
MiB每秒浮点
运算数/109YOLOv3 87.54 89.06 12.12 24.4 18.9 YOLOv5 89.38 88.52 2.50 5.3 7.1 YOLOv7−tiny 84.40 89.70 6.01 12.3 13 YOLOv8 88.60 88.20 3.00 6.3 8.1 Faster−RCNN 66.13 55.09 136.73 108.0 401.7 SSD 74.05 65.20 23.87 91.09 274.0 文献[22]中算法 81.40 89.30 6.87 14.1 14.2 文献[24]中算法 90.60 89.60 1.92 4.1 4.7 CED−YOLO 91.69 92.27 2.34 5.0 6.2 -
[1] 中矿(北京)煤炭产业景气指数研究课题组,郭建利. 2023-2024年中国煤炭产业经济形势研究报告[J]. 中国煤炭,2024,50(3):12-20. China Mining (Beijing) Coal Industry Prosperity Index Research,GUO Jianli. Research report on the economic situation of China's coal industry from 2023 to 2024[J]. China Coal,2024,50(3):12-20.
[2] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:unified,real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:779-788.
[3] LIU Wei,ANGUELOV D,ERHAN D,et al. SSD:single shot multiBox detector[C]. The 14th European Conference on Computer Vision,Amsterdam,2016:21-37.
[4] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal loss for dense object detection [C]. IEEE International Conference on Computer Vision,Venice,2017:2999-3007.
[5] REN Shaoqing,HE Kaiming,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[6] HAO Zhenbang,LIN Lili,POST CHRISTOPHER J,et al. Automated tree-crown and height detection in a young forest plantation using mask region-based convolutional neural network (Mask R-CNN)[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2021,178:112-123. DOI: 10.1016/j.isprsjprs.2021.06.003
[7] 刘富强,钱建生,王新红,等. 基于图像处理与识别技术的煤矿矸石自动分选[J]. 煤炭学报,2000,25(5):534-537. DOI: 10.3321/j.issn:0253-9993.2000.05.020 LIU Fuqiang,QIAN Jiansheng,WANG Xinhong,et al. Automatic separation of waste rock in coal mine based on image procession and recognition[J]. Journal of China Coal Society,2000,25(5):534-537. DOI: 10.3321/j.issn:0253-9993.2000.05.020
[8] WANG Yuanbin,WANG Yujing,DANG Langfei. Video detection of foreign objects on the surface of belt conveyor underground coal mine based on improved SSD[J]. Journal of Ambient Intelligence and Humanized Computing,2020:1-10.
[9] 任国强,韩洪勇,李成江,等. 基于Fast_YOLOv3算法的煤矿胶带运输异物检测[J]. 工矿自动化,2021,47(12):128-133. REN Guoqiang,HAN Hongyong,LI Chengjiang,et al. Foreign object detection in coal mine belt transportation based on Fast_YOLOv3 algorithm[J]. Industry and Mine Automation,2021,47(12):128-133.
[10] XIE Yehui,YU Sun,HUANG Ziyang. Foreign matter detection of coal conveying belt based on machine vision[C]. The 2nd International Conference on Computer Science and Management Technology,Shanghai,2021:293-296.
[11] 程德强,徐进洋,寇旗旗,等. 融合残差信息轻量级网络的运煤皮带异物分类[J]. 煤炭学报,2022,47(3):1361-1369. CHENG Deqiang,XU Jinyang,KOU Qiqi,et al. Lightweight network based on residual information for foreign body classification on coal conveyor belt[J]. Journal of China Coal Society,2022,47(3):1361-1369.
[12] MAO Qinghua,LI Shikun,HU Xin,et al. Coal mine belt conveyor foreign objects recognition method of improved YOLOv5 algorithm with defogging and deblurring[J]. Energies,2022,15(24). DOI:10.3390/ en15249504.
[13] 张旭. 带式输送机异物检测系统关键技术研究[J]. 徐州:中国矿业大学,2023. ZHANG Xu. Research on key technology of belt conveyor foreign body detection system[J]. Xuzhou:China University of Mining and Technology,2023.
[14] LIU Jiehui,QIAO Hongchao,LIANG Lijie,et al. Improved lightweight YOLOv4 foreign object detection method for conveyor belts combined with CBAM[J]. Applied Sciences,2023,13(14). DOI: 10.3390/app13148465.
[15] 高涵,赵培培,于正,等. 基于特征增强与Transformer的煤矿输送带异物检测[J/OL]. 煤炭科学技术,1-11[2024-03-28]. http://kns.cnki.net/kcms/detail/11.2402.td.20240119.1515.012.html. GAO Han,ZHAO Peipei,YU Zheng,et al. Coal mine conveyor belt foreign object detection based on feature enhancement and Transformer[J/OL]. Coal Science and Technology,1-11[2024-03-28]. http://kns.cnki.net/kcms/detail/11.2402.td.20240119.1515.012.html.
[16] YANG Dengjie,MIAO Changyun,LIU Yi,et al. Improved foreign object tracking algorithm in coal for belt conveyor gangue selection robot with YOLOv7 and DeepSORT[J]. Measurement,2024,228. DOI: 10.1016/j.measurement.2024.114180.
[17] HU Jie,SHEN Li,AIBANIE S,et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023. DOI: 10.1109/TPAMI.2019.2913372
[18] FAWZI A,SAMULOWITZ H,TURAGA D,et al. Adaptive data augmentation for image classification[C]. IEEE International Conference on Image Processing,Phoenix,2016:3688-3692.
[19] VENKATARAMANAN S,KIJAK E,AMSALEG L,et al. AlignMixup:improving representations by interpolating aligned features[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,New Orleans,2022:19152-19161.
[20] WANG Niannian,ZHANG Zexi,HU Haobang,et al. Underground defects detection based on GPR by fusing simple linear iterative clustering phash (SLIC-Phash) and convolutional block attention module (CBAM)-YOLOv8[J]. IEEE Access,2024,12:25888-25905. DOI: 10.1109/ACCESS.2024.3365959
[21] PARK J,WOO S,LEE J-Y,et al. A simple and light-weight attention module for convolutional neural networks[J]. International Journal of Computer Vision,2020,128(4):783-798. DOI: 10.1007/s11263-019-01283-0
[22] 郝帅,张旭,马旭,等. 基于CBAM−YOLOv5的煤矿输送带异物检测[J]. 煤炭学报,2022,47(11):4147-4156. HAO Shuai,ZHANG Xu,MA Xu,et al. Foreign object detection in coal mine conveyor belt based on CBAM-YOLOv5[J]. Journal of China Coal Society,2022,47(11):4147-4156.
[23] CHEN Jierun,KAO S,HE Hao,et al. Run,don't walk:chasing higher FLOPS for faster neural networks[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Vancouver,2023:12021-12031.
[24] HUANG Kaifeng,LI Shiyan,CAI Feng,et al. Detection of large foreign objects on coal mine belt conveyor based on improved[J]. Processes,2023,11(8). DOI: 10.3390/pr11082469.
[25] SELVARAJU R R,COGSWELL M,DAS A,et al. Grad-CAM:visual explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision,2020,128(2):336-359. DOI: 10.1007/s11263-019-01228-7
-
期刊类型引用(21)
1. 王鑫. 皮带运输机异物检测方案设计. 机械管理开发. 2025(01): 145-146+207 . 百度学术
2. 谢雨,邱伊健. 基于改进贪心算法的工业机器人分拣装配协同控制系统设计. 计算机测量与控制. 2025(03): 105-112+137 . 百度学术
3. 张国鸣. 煤矿带式输送机电气控制系统设计. 煤炭技术. 2024(01): 252-255 . 百度学术
4. 王枫,张胜. 基于立体视觉的高速公路收费机器人目标识别方法. 自动化与仪器仪表. 2024(04): 189-192 . 百度学术
5. 黄章瑞,程文婷. 基于机器学习的四足移动机器人视觉导航方法. 信息与电脑(理论版). 2024(05): 43-45 . 百度学术
6. 黄家林,方欢. 煤矿带式输送机数字孪生系统的HCPN性能评价方法. 电子设计工程. 2024(16): 22-26 . 百度学术
7. 徐明辉. 煤矿带式输送机综合控制技术的运用研究. 内蒙古煤炭经济. 2024(13): 130-132 . 百度学术
8. 侯晶男. 矿用带式输送机监控系统的设计及应用分析. 机械管理开发. 2024(08): 227-229 . 百度学术
9. 梅晓虎,吕小强,雷萌. 基于Stair-YOLOv7-tiny的煤矿井下输送带异物检测. 工矿自动化. 2024(08): 99-104+111 . 本站查看
10. 窦小雨. 基于激光传感技术的电子商务配送机器人自动化控制系统设计. 自动化与仪器仪表. 2024(09): 253-257 . 百度学术
11. 黄晨烜,常健,王雷. 基于激光雷达的井下带式输送机边缘提取方法. 工矿自动化. 2024(09): 115-123 . 本站查看
12. 唐弢,王振邦,许聪,李春宇. 基于视觉技术的物流分拣机器人自动定位系统设计. 自动化与仪器仪表. 2023(06): 188-191 . 百度学术
13. 刘卫东. 煤矿主运带式输送机自动控制系统的设计与应用. 矿业装备. 2023(06): 189-191 . 百度学术
14. 旷永龙. 煤矿带式输送机非煤异物检测系统设计与试验. 山西焦煤科技. 2023(08): 28-30+42 . 百度学术
15. 毛清华,郭文瑾,翟姣,王荣泉,尚新芒,李世坤,薛旭升. 煤矿带式输送机异常状态视频AI识别技术研究. 工矿自动化. 2023(09): 36-46 . 本站查看
16. 沈宁. 基于双目视觉的选煤厂用胶带输送机表面异物检测. 工矿自动化. 2023(S1): 82-85 . 本站查看
17. 李哲,伍世英,袁宝欣,许昌. 一种智能高效识别与分拣机器人方案设计思路. 科技风. 2023(30): 1-3 . 百度学术
18. 禹万林,郁杰. 基于负载预测的矿用带式输送机调速系统设计. 煤炭技术. 2023(12): 264-267 . 百度学术
19. 耿延兵,王章国. 基于图像灰度识别的煤泥水絮凝沉降速率快速检测方法. 工矿自动化. 2023(12): 87-93 . 本站查看
20. 曹正远,蒋伟,方成辉. 基于双注意力生成对抗网络的煤流异物智能检测方法. 工矿自动化. 2023(12): 56-62 . 本站查看
21. 李江涛,张康辉,沙特. 煤中异物识别的深度学习模型轻量化策略. 煤炭工程. 2023(S1): 220-224 . 百度学术
其他类型引用(8)