基于改进YOLOv11的露天矿复杂背景下小目标检测

朱永军, 蔡光琪, 韩进, 缪燕子, 马小平, 焦文华

朱永军,蔡光琪,韩进,等. 基于改进YOLOv11的露天矿复杂背景下小目标检测[J]. 工矿自动化,2025,51(4):93-99. DOI: 10.13272/j.issn.1671-251x.2025020018
引用本文: 朱永军,蔡光琪,韩进,等. 基于改进YOLOv11的露天矿复杂背景下小目标检测[J]. 工矿自动化,2025,51(4):93-99. DOI: 10.13272/j.issn.1671-251x.2025020018
ZHU Yongjun, CAI Guangqi, HAN Jin, et al. Small object detection in complex open-pit mine backgrounds based on improved YOLOv11[J]. Journal of Mine Automation,2025,51(4):93-99. DOI: 10.13272/j.issn.1671-251x.2025020018
Citation: ZHU Yongjun, CAI Guangqi, HAN Jin, et al. Small object detection in complex open-pit mine backgrounds based on improved YOLOv11[J]. Journal of Mine Automation,2025,51(4):93-99. DOI: 10.13272/j.issn.1671-251x.2025020018

基于改进YOLOv11的露天矿复杂背景下小目标检测

基金项目: 

国家自然科学基金项目(62473370)。

详细信息
    作者简介:

    朱永军(1998—),男,安徽六安人,硕士研究生,研究方向为计算机视觉,E-mail:yj.zhu@cumt.edu.cn

    通讯作者:

    焦文华(1975—),男,北京人,研究员,博士,研究方向为机器视觉与感知及时间序列分析预测,E-mail:wjiao@cumt.edu.cn

  • 中图分类号: TD67/804

Small object detection in complex open-pit mine backgrounds based on improved YOLOv11

  • 摘要:

    露天矿小目标检测任务面临视角广、检测距离远导致目标成像小的挑战,现有目标检测模型存在图像逐层下采样操作引发的特征衰减问题。针对该问题,提出了一种改进YOLOv11模型,并将其用于露天矿复杂背景下小目标检测。改进YOLOv11模型通过引入鲁棒特征下采样(RFD)模块替换跨步卷积下采样模块,有效保留了小目标的特征信息;设计了小目标特征增强颈部(STFEN)网络替代原有特征金字塔结构的颈部网络,在模型颈部引入跨阶段部分融合模块,整合来自不同层级的特征图;将原有的CIoU损失函数替换为Powerful−IoU(PIoU)损失函数,解决了训练过程中锚框膨胀问题,使模型快速精准聚焦小目标。在露天矿区小目标数据集上的实验结果表明:① RFD模块使模型参数量减少的同时mAP提升了1.5%;STFEN网络虽使模型参数量有所增加,但mAP提升了2.2%;PIoU损失函数在未改变模型参数量及每秒浮点运算次数的前提下使mAP提升了1.7%;三者联合应用最终使模型mAP提升了3.9%。② 改进YOLO11模型在保持较高推理速度的同时实现了精度提升,其mAP较YOLOv5m,YOLOv8m,YOLOv11m和RtDetr−L分别提高了2.6%,1.5%,0.9%和2.2%,且模型参数量更小,易于边缘部署。

    Abstract:

    Small object detection in open-pit mines faces challenges such as wide viewing angles and long detection distances, which result in small target imaging. Existing object detection models suffer from feature attenuation caused by progressive image downsampling operations. To address this issue, an improved YOLOv11 model was proposed and applied to small object detection under complex backgrounds in open-pit mines. The improved YOLOv11 model introduced a Robust Feature Downsampling (RFD) module to replace the stride convolution downsampling module, effectively preserving the feature information of small objects. A Small Target Feature Enhancement Neck (STFEN) network was designed to replace the original feature pyramid structure in the neck, incorporating a cross-stage partial fusion module to integrate feature maps from different levels. The original CIoU loss function was replaced with the Powerful-IoU (PIoU) loss function to solve the anchor box expansion issue during training, enabling the model to rapidly and accurately focus on small targets. Experimental results on a small object dataset from open-pit mining areas showed that: ① the RFD module reduced model parameters while increasing mAP by 1.5%. Although the STFEN network increased the number of parameters, it improved mAP by 2.2%. The PIoU loss function improved mAP by 1.7% without changing the number of parameters or FLOPs. The combination of all three led to a total mAP improvement of 3.9%. ② The improved YOLOv11 model achieved higher accuracy while maintaining a high inference speed, with mAP improvements of 2.6%, 1.5%, 0.9%, and 2.2% over YOLOv5m, YOLOv8m, YOLOv11m, and RtDetr-L, respectively, and with fewer parameters, making it more suitable for edge deployment.

  • 露天矿爆破开采是矿产资源开发的重要手段,但其作业环境复杂,露天矿爆破开采事故仍时有发生,安全形势严峻[1]。传统的人工巡检难以满足现代露天矿爆破开采的安全需求。随着计算机视觉技术的快速发展,基于目标检测的实时监测系统为实现露天矿区车辆、人员的精确定位及安全事故预防提供了新的技术路径。然而,由于露天矿区地域广阔,采用密集部署摄像头的监控方案不仅成本高昂,而且实施难度大。相比之下,在露天矿区制高点部署重载云台相机的监控方案具有显著的经济性和可行性。但该方案也带来了新的技术挑战,即远距离监控导致目标物体在图像中呈现小尺寸特征,显著降低了目标检测精度。现有目标检测技术在中大型目标识别方面已取得显著成效,但在小目标检测精度上仍存在明显不足[2]。此外,露天矿现场作业时的扬尘及阴雨雪天气导致露天矿的场景变化复杂,同样会影响小目标检测精度。因此,深入研究露天矿在复杂场景下的小目标检测问题,对于提升矿区安全管理水平具有重要的理论价值和现实意义。

    小目标检测任务因目标像素少,可用信息少,特征信息不明显,模型易将小目标误识别为背景[3-5]。针对该任务的特点,研究人员采取了多种策略。薛小勇等[6]提出了一种改进的YOLOv8n模型,通过在模型中引入动态蛇形卷积和极化自注意力机制,并增设专门针对小目标的检测头,显著提升了对井下人员及其所佩戴安全防护装备等小目标的检测精度和实时性。阮顺领等[7]针对露天矿区非结构化道路上小尺度负障碍检测问题,提出了一种基于改进YOLOv5的多特征融合检测方法,通过引入双向特征金字塔网络(Bidirectional Feature Pyramid Network,BiFPN)[8]特征融合模块,提高小目标检测权重占比,并优化损失函数和锚框适配性,显著提升了对小目标的检测精度和模型的收敛速度。Xiao Jinsheng等[9]针对复杂场景下小目标检测中存在的语义信息缺失问题,提出了基于上下文增强的特征金字塔网络,通过构建多尺度扩张卷积上下文增强模块,融合多层级的感受野特征,强化微小目标的语义表征能力,有效解决了微小目标在特征传递过程中的信息衰减问题。J. Rabbi等[10]针对遥感图像中低分辨率及噪声干扰下小目标检测精度不足的问题,提出了一种端到端边缘增强生成对抗网络与目标检测器协同优化的方法,通过构建基于残差密集块的边缘增强超分辨率生成对抗网络生成高分辨率图像,同时将检测网络损失反向传播至生成器进行联合优化,显著改善了低分辨率遥感图像中小目标的边缘清晰度与检测鲁棒性。曹帅等[11]针对煤矿井下小目标检测问题,通过融合模拟退火算法与k−means++聚类算法来优化YOLOv7模型中初始锚框值,在YOLOv7模型中增加新的检测层以获取高分辨率特征图,并引入双层注意力机制强化特征表示,有效提升了对井下安全帽、自救器等小目标的检测精度和速度。

    上述研究通过优化特征融合策略、增设检测层及引入注意力机制等方式使小目标检测取得了一定进展,但尚未有效解决因图像逐层下采样操作引发的特征衰减的问题。因此,本文提出一种改进YOLOv11,并将其应用于露天矿复杂背景下小目标检测。以YOLOv11为基线模型,引入鲁棒特征下采样(Robust Feature Downsampling,RFD)模块,增强提取特征的鲁棒性;设计小目标特征增强颈部(Small Target Feature Enhance Neck,STFEN)网络,提高小目标的特征丰富度;使用Powerful−IoU(PIoU)损失函数[12],提高模型精度。

    YOLOv11模型由输入(Input)、骨干网络(Backbone)、颈部网络(Neck)、检测头(Head)4个部分构成。骨干网络负责提取特征;颈部网络使用自下向上与自上向下相结合的特征金字塔网络融合来自于不同层级的多尺度特征;检测头则负责分类预测及边界框位置预测。YOLOv11对于中大型目标检测精度较高,但是对于小目标的检测精度不高,难以满足露天矿区实时小目标检测的精度需求。因此,本文在YOLOv11模型的基础上进行改进:① 使用RFD模块替换跨步卷积下采样模块,保留更加具有鲁棒性的特征信息及更多的细节纹理信息。② 构建STFEN网络替换特征金字塔结构的颈部网络,融合浅层特征图以获取更多的小目标特征信息。③ 使用PIoU损失函数替换CIoU损失函数,使锚框可以快速无膨胀地逼近小目标的真实框,加快模型收敛速度,提高检测精度。改进YOLOv11模型结构如图1所示。

    图  1  改进YOLOv11模型结构
    Figure  1.  Structure of improved YOLOv11 model

    YOLOv11模型的跨步卷积下采样虽然快速聚合了局部特征,并且实现了较高的计算效率,但其固有的信息压缩机制会导致细粒度特征的不可逆丢失。针对特征保留与计算效率的平衡问题,本文采用RFD模块替换跨步卷积下采样模块。RFD模块通过多路径下采样策略的协同工作,实现特征信息的最大化保留,并提高下采样特征的鲁棒性[13]

    RFD模块采用双分支并行处理结构实现特征信息的互补性提取,结构如图2所示。主分支通过分组卷积(Group Convolution,GConv)初步提取特征,随后并行使用深度可分离卷积(Depthwise Separable Convolution,DWConv)和最大池化处理提取特征并调整特征图大小,实现高效特征压缩。辅助分支则使用空间到深度卷积(Space-to-Depth Convolution,SPDConv)构建无损特征通路,通过像素重组技术将空间维度信息完整转移至通道维度,有效保留原始特征信息。经过双分支处理的特征图在通道维度叠加后,通过1×1卷积实现通道维度的信息融合与特征压缩,在确保信息完整性的同时减少模型计算量。

    图  2  RFD模块结构
    Figure  2.  Structure of RFD module

    SPDConv模块结构如图3所示,其将常规下采样过程解耦为2个阶段,先通过隔像素点提取像素组成新的特征图沿空间维度堆叠,随后经过$ 1\times 1 $的卷积进行通道维度的压缩。

    图  3  SPDConv模块结构
    Figure  3.  Structure of SPDConv module

    骨干网络中浅层的特征图因感受野较小而保留了丰富的细节特征信息,而深层的特征图则通过逐级抽象获得了更强的语义表征能力[14],这种多尺度特征的互补性为小目标检测提供了重要理论依据。然而,直接融合浅层大尺度特征图会导致特征金字塔的参数量激增,显著降低模型的推理速度。同时,大尺度特征图包含大量背景噪声,容易导致有效信息被噪声所淹没[3]。针对上述问题,本文设计STFEN网络替换特征金字塔结构的颈部网络。

    将骨干网络中C3K2模块输出的$ 160\times 160 $大小的特征图进行SPDConv下采样,将特征图的空间尺寸降至80×80。随后,将处理后的特征与颈部网络中C3K2模块输出的$ 80\times 80 $大小的特征图进行通道维度融合。为进一步提升特征融合效能,受CSPNet[15]和OKNet[16]网络模块的启发,本文设计跨阶段部分融合(Cross Stage Partial Fusion,CSPF)模块,结构如图4所示。

    图  4  CSPF模块结构
    Figure  4.  Structure of CSPF module

    CSPF模块包括特征压缩、分治融合与通道重构3个环节。输入特征通过$ 1\times 1 $卷积进行通道维度压缩,随后将特征图沿通道轴拆分为2个子特征图$ {y}_{1} $和$ {y}_{2}\mathrm{。}{y}_{1} $送入OKM(Omni-Kernel Module)中进行多尺度特征提取,$ {y}_{2} $作为跨阶段直连特征保留原始信息。二者在通道维度拼接后,再经1×1卷积实现通道数适配,最终输出融合后的优化特征。该设计通过特征拆分策略将计算资源集中于子特征图$ {y}_{1} $,同时利用子特征图$ {y}_{2} $实现特征复用,有效减少大尺度特征引入带来的冗余计算问题。

    OKM由局部分支、大感受野分支和全局分支3个分支构成,如图5所示。局部分支采用$ 1\times 1 $ DWConv聚焦细粒度纹理特征;大感受野分支通过堆叠不同尺寸的DWConv模块获取较大的感受野,捕捉不同方向的上下文信息;全局分支引入双域通道注意力模块(Dual-domain Channel Attention Module,DCAM)及基于频域的空间注意力模块(Frequency-based Spatial Attention Module,FSAM),通过频域与空间域的联合建模实现特征增强。

    图  5  OKM结构
    Figure  5.  Structure of OKM

    DCAM及FSAM结构如图6所示。DCAM对输入特征进行快速傅里叶变换(Fast Fourier Transform,FFT),在频域使用全局平均池化(Global Average Pooling,GAP)对频谱特征进行通道维度的选择性增强,随后经逆快速傅里叶变换(Inverse Fast Fourier Transform,IFFT)至空间域进行二次空间域通道调制,这种双域交替处理机制能够同时捕捉频域全局结构特征与空间域语义信息。FSAM将经过FFT后的频域特征与可学习卷积核进行频域交互,生成的空间注意力权重经IFFT映射回原始空间,这种频域处理方式特别强化了对图像高频纹理与边缘细节的感知能力,为小目标检测提供了关键的细微特征。

    图  6  DCAM和FSAM结构
    Figure  6.  Structure of DCAM and FSAM

    YOLOv11使用解耦头结构实现分类与定位任务的独立预测,其损失函数由分类损失和定位损失组成。在定位损失方面,YOLOv11融合了分布焦点损失函数和CIoU损失函数,通过加权求和组成总损失函数,其中CIoU损失函数权重占比最大以强化定位精度。CIoU损失函数通过综合考虑交并比、中心点距离及长宽比3项几何因素,使训练过程中引导锚框快速逼近真实框。然而,该函数中距离惩罚项的计算方式存在固有缺陷,即以锚框与真实框的公共最小包围框的斜边长度的平方为分母,以锚框与真实框的中心点距离的平方为分子,这种数学表达在训练过程中会诱使锚框通过膨胀尺寸而非精准位移来逼近真实框,导致模型收敛速度减缓。针对上述问题,本文引入PIoU进行优化:

    $$ {L}_{\mathrm{P}\mathrm{I}\mathrm{o}\mathrm{U}}=2-{I}_{\mathrm{I}\mathrm{o}\mathrm{U}}-{\mathrm{e}\mathrm{x}\mathrm{p}(-{P}^{2})}^{} $$ (1)
    $$ P=\left(\frac{{d}_{{{\mathrm{w}}}_{1}}}{{w}_{{\mathrm{gt}}}}+\frac{{d}_{{{\mathrm{w}}}_{2}}}{{w}_{{\mathrm{gt}}}}+\frac{{d}_{{{\mathrm{h}}}_{1}}}{{h}_{{\mathrm{gt}}}}+\frac{{d}_{{{\mathrm{h}}}_{2}}}{{h}_{{\mathrm{gt}}}}\right)/4 $$ (2)

    式中:LPIoU为PIoU损失;$ {I}_{\mathrm{I}\mathrm{o}\mathrm{U}} $为真实框与锚框的交并比;$ P $为惩罚项;$ {d}_{{{\mathrm{w}}}_{1}} $,$ {d}_{{{\mathrm{w}}}_{2}} $分别为真实框与锚框的左侧边、右侧边的间距;$ {d}_{{{\mathrm{h}}}_{1}} $,$ {d}_{{{\mathrm{h}}}_{2}} $分别为真实框与锚框的顶边、底边的间距;$ {h}_{{\mathrm{gt}}} $,$ {w}_{{\mathrm{gt}}} $分别为真实框的长、宽。

    PIoU在损失优化过程中对4个边界距离变量$ {d}_{{{\mathrm{w}}}_{1}} $,$ {d}_{{{\mathrm{w}}}_{2}} $,$ {d}_{{{\mathrm{h}}}_{1}} $,$ {d}_{{{\mathrm{h}}}_{2}} $施加同步约束,迫使锚框在长宽维度上均衡收敛。这种设计不仅消除了锚框的膨胀现象,更通过多向距离的协同优化显著提升了小目标的定位灵敏度。

    本文数据集采集于中煤平朔集团有限公司安太堡露天矿,由400万像素的重载云台相机拍摄露天矿区。重载云台相机及其配套设备硬件型号见表1

    表  1  重载云台相机及其配套设备硬件型号
    Table  1.  Heavy-duty gimbal camera and its supporting equipment hardware models
    名称 型号
    云台相机 TIC7862−IRL
    云台相机电源 PWR−DC4806
    硬盘录像机 NVS−B200−18
    工业级光收发器 MTX100−A3K1020
    5口工业交换机 MTX100−A5K0050
    工业级室外无线AP ZoneFree5886
    防雷器 SMTRJ45/E1000−220 V
    下载: 导出CSV 
    | 显示表格

    通过对重载云台相机采集的视频按照一定的帧间隔进行抽帧,得到704张原始图像。采用标注工具LabelImg对图像进行标注,标注分为“car”“drill”“excavator”3类,分别表示车辆、钻机及电铲(钻机与电铲的特征明显区别于常见车辆,因此将其分类标注)。由于摄像头监控距离远,多数车辆在图像中成像小,其中尺寸小于$ 32\times 32 $的小目标数量占目标总数的59.3%。露天矿作业现场常见小目标如图7所示,其中矿卡、面包车、轿车及皮卡均归类为车辆。

    图  7  露天矿作业现场常见小目标
    Figure  7.  Common small targets in open-pit mine operation sites

    将标注好的图像按照8∶1∶1的比例随机抽取划分为训练集、验证集及测试集。由于露天矿场景因天气、季节及扬尘等因素导致背景变换,从而影响检测精度。为提高模型的鲁棒性,本文使用改变图像亮度、添加高斯噪声等方法对训练集进行数据增强,最终得到5 630张训练集图像。

    实验环境:操作系统Ubuntu 20.04,Python 3.10,CUDA11.8,深度学习框架PyTorch 2.1.1,显卡NVIDIA GeForce RTX 4090D。

    实验参数设置:批量大小为32,训练轮次为200,使用SGD优化器,学习率为0.01,动量为0.937,权重衰减率为0.000 5。

    采用YOLOv11作为基线模型,通过逐步在基线模型中应用RFD,STFEN及PIoU来验证各改进方法对于小目标检测的有效性,消融实验结果见表2。表中E1模型为YOLOv11+RFD,E2模型为YOLOv11+STFEN,E3模型为YOLOv11+PIoU,E4模型为YOLOv11+RFD+STFEN,E5模型为YOLOv11+STFEN+PIoU,E6模型为YOLOv11+RFD+PIoU,E7模型为YOLOv11+RFD+STFEN+PIoU。

    表  2  消融实验结果
    Table  2.  Ablation experiment results
    模型 mAP/% 每秒浮点
    运算次数/$ {10}^{9} $
    处理速度/
    ($ \mathrm{帧} \cdot {\mathrm{s}}^{-1} $)
    参数量/$ {10}^{6} $个
    YOLOv11 75.8 21.3 372.5 9.41
    E1 77.3 23.8 233.2 9.26
    E2 78.0 43.0 198.4 11.16
    E3 77.5 21.3 352.9 9.41
    E4 79.0 45.4 208.1 11.01
    E5 78.9 43.0 198.0 11.16
    E6 78.6 23.8 233.6 9.26
    E7 79.7 45.4 174.0 11.01
    下载: 导出CSV 
    | 显示表格

    表2可看出:

    1) 使用RFD模块后虽然会略微提升模型计算复杂度,但是会降低模型参数量。同时,mAP得到了提升,其中E1模型的mAP相较于YOLOv11模型提升了1.5%,这是由于RFD模块通过多路径下采样策略提取得到的特征更具鲁棒性,相较于YOLOv11原先的跨步卷积下采样模块可以更好地保留小目标的特征信息。

    2) 使用STFEN网络后的模型处理速度相较于YOLOv11模型下降较多,这是因为从骨干网络中引入的尺寸为160×160的特征图融合到颈部结构中导致模型的参数量及计算复杂度大幅增加,但更多的特征信息使得每个含有STFEN网络的模型mAP得到了提升,其中E2模型的mAP相较于YOLOv11模型提升了2.2%,E4模型的mAP相较于E1模型提升了1.7%,E5模型的mAP相较于E3模型提升了1.4%,E7模型的mAP相较于E6模型提升了1.1%,这验证了STFEN网络的多尺度特征提取及小目标特征增强的能力。

    3) 使用PIoU损失函数的模型mAP均得到了提升。其中,E3模型相对于YOLOv11模型的 mAP提升了1.7%,E5模型相对于E2模型的mAP提升了0.9%,E6模型相对于E1模型的mAP提升了1.3%,E7模型相对于E4模型的mAP提升了0.7%。而替换PIoU损失函数并未使模型的每秒浮点运算次数、处理速度及参数量明显变化,证明了相较于CIoU损失函数通过约束真实框与锚框的中心点距离与最大包围框比值进行监督的策略,PIoU损失函数同时约束真实框与锚框4个边界距离的策略具有更优的监督效果,可以无代价提升模型性能。

    为进一步验证改进YOLOv11模型的性能,将其与现有主流一阶段检测模型YOLOv5m[17-18],YOLOv8m[19-20],YOLOv11m及RtDetr−L[21]进行对比实验,结果见表3。可看出改进YOLOv11的均值平均精度(mAP)均优于对比模型,mAP相较于YOLOv5m,YOLOv8m,YOLOv11m及RtDetr−L分别提高了2.6%,1.5%,0.9%,2.2%;改进YOLOv11模型的每秒浮点运算次数、参数量及模型大小均小于对比模型,且推理速度较快,易于边缘部署。

    表  3  对比实验结果
    Table  3.  Comparative experiment results
    模型 mAP/% 每秒浮点
    运算次数/$ {10}^{9} $
    处理速度/
    ($ \mathrm{帧} \cdot {\mathrm{s}}^{-1} $)
    参数量/
    $ {10}^{6} $个
    模型大
    小/MiB
    YOLOv5m 77.1 47.9 232.6 20.86 40.29
    YOLOv8m 78.2 78.7 205.3 25.84 49.63
    YOLOv11m 78.8 67.7 218.5 20.03 38.66
    RtDetr−L 77.5 100.6 54.8 28.45 56.33
    改进YOLOv11 79.7 45.4 174.0 11.01 21.43
    下载: 导出CSV 
    | 显示表格

    露天矿场景下小目标检测结果如图8所示,可看出对于尺寸偏大的电铲和钻机,各模型的检测效果差别不大,但对于尺寸更小的矿卡,不同模型的检测效果差别明显,其中改进YOLOv11模型的预测框最接近真实框。

    图  8  不同模型检测结果
    Figure  8.  Detection results of different models

    1) 针对露天矿场景下的小目标检测任务,以YOLOv11作为基线模型提出了改进YOLOv11模型。通过引入RFD模块,利用多路径下采样的互补作用,缓解特征下采样过程中小目标特征严重衰减问题;改进颈部网络,融合骨干网络中浅层特征图,并以CSPF模块提取从局部到全局的特征,提升特征融合效能;采用PIoU损失函数,使锚框无膨胀地快速逼近真实框,加快模型训练的收敛速度。

    2) 与YOLOv11模型相比,改进YOLOv11模型在保持低参数量的同时显著提升了mAP,达79.7%,且检测速度保持在174帧/s,兼顾了模型的检测精度和检测速度的要求。

    3) 与主流一阶段目标检测模型YOLOv5m,YOLOv8m,YOLOv11m及RtDetr−L相比,改进YOLOv11模型大小、参数量、每秒浮点运算次数较小,且推理速度较快,检测精度高。

  • 图  1   改进YOLOv11模型结构

    Figure  1.   Structure of improved YOLOv11 model

    图  2   RFD模块结构

    Figure  2.   Structure of RFD module

    图  3   SPDConv模块结构

    Figure  3.   Structure of SPDConv module

    图  4   CSPF模块结构

    Figure  4.   Structure of CSPF module

    图  5   OKM结构

    Figure  5.   Structure of OKM

    图  6   DCAM和FSAM结构

    Figure  6.   Structure of DCAM and FSAM

    图  7   露天矿作业现场常见小目标

    Figure  7.   Common small targets in open-pit mine operation sites

    图  8   不同模型检测结果

    Figure  8.   Detection results of different models

    表  1   重载云台相机及其配套设备硬件型号

    Table  1   Heavy-duty gimbal camera and its supporting equipment hardware models

    名称 型号
    云台相机 TIC7862−IRL
    云台相机电源 PWR−DC4806
    硬盘录像机 NVS−B200−18
    工业级光收发器 MTX100−A3K1020
    5口工业交换机 MTX100−A5K0050
    工业级室外无线AP ZoneFree5886
    防雷器 SMTRJ45/E1000−220 V
    下载: 导出CSV

    表  2   消融实验结果

    Table  2   Ablation experiment results

    模型 mAP/% 每秒浮点
    运算次数/$ {10}^{9} $
    处理速度/
    ($ \mathrm{帧} \cdot {\mathrm{s}}^{-1} $)
    参数量/$ {10}^{6} $个
    YOLOv11 75.8 21.3 372.5 9.41
    E1 77.3 23.8 233.2 9.26
    E2 78.0 43.0 198.4 11.16
    E3 77.5 21.3 352.9 9.41
    E4 79.0 45.4 208.1 11.01
    E5 78.9 43.0 198.0 11.16
    E6 78.6 23.8 233.6 9.26
    E7 79.7 45.4 174.0 11.01
    下载: 导出CSV

    表  3   对比实验结果

    Table  3   Comparative experiment results

    模型 mAP/% 每秒浮点
    运算次数/$ {10}^{9} $
    处理速度/
    ($ \mathrm{帧} \cdot {\mathrm{s}}^{-1} $)
    参数量/
    $ {10}^{6} $个
    模型大
    小/MiB
    YOLOv5m 77.1 47.9 232.6 20.86 40.29
    YOLOv8m 78.2 78.7 205.3 25.84 49.63
    YOLOv11m 78.8 67.7 218.5 20.03 38.66
    RtDetr−L 77.5 100.6 54.8 28.45 56.33
    改进YOLOv11 79.7 45.4 174.0 11.01 21.43
    下载: 导出CSV
  • [1] 翟海燕. 露天煤矿开采安全生产技术研究[J]. 内蒙古煤炭经济,2023(2):97-99. DOI: 10.3969/j.issn.1008-0155.2023.02.034

    ZHAI Haiyan. Study on safety production technology of open-pit coal mining[J]. Inner Mongolia Coal Economy,2023(2):97-99. DOI: 10.3969/j.issn.1008-0155.2023.02.034

    [2]

    TONG Kang,WU Yiquan. Deep learning-based detection from the perspective of small or tiny objects:a survey[J]. Image and Vision Computing,2022,123. DOI: 10.1016/j.imavis.2022.104471.

    [3] 秦学斌,薛宇强,景宁波,等. 露天煤矿自动驾驶矿卡前障碍物检测算法研究[J]. 金属矿山,2025(2):145-151.

    QIN Xuebin,XUE Yuqiang,JING Ningbo,et al. Study on obstacle detection algorithm in front of autonomous mining truck in open-pit coal mine[J]. Metal Mine,2025(2):145-151.

    [4]

    LIU Yang,SUN Peng,WERGELES N,et al. A survey and performance evaluation of deep learning methods for small object detection[J]. Expert Systems with Applications,2021,172. DOI: 10.1016/j.eswa.2021.114602.

    [5] 江松,孔若男,李鹏程,等. 融合Swin Transformer与CNN的露天矿车前障碍物智能检测算法[J]. 金属矿山,2023(5):228-236.

    JIANG Song,KONG Ruonan,LI Pengcheng,et al. Intelligent detection algorithm of obstacles in front of open-pit mine cars based on Swin Transformer and CNN[J]. Metal Mine,2023(5):228-236.

    [6] 薛小勇,何新宇,姚超修,等. 基于改进YOLOv8n的采掘工作面小目标检测方法[J]. 工矿自动化,2024,50(8):105-111.

    XUE Xiaoyong,HE Xinyu,YAO Chaoxiu,et al. Small object detection method for mining face based on improved YOLOv8n[J]. Journal of Mine Automation,2024,50(8):105-111.

    [7] 阮顺领,鄢盛钰,顾清华,等. 基于多特征融合的露天矿区道路负障碍检测[J]. 煤炭学报,2024,49(5):2561-2572.

    RUAN Shunling,YAN Shengyu,GU Qinghua,et al. Negative obstacle detection on open pit roads based on multi-feature fusion[J]. Journal of China Coal Society,2024,49(5):2561-2572.

    [8]

    TAN Mingxing,PANG Ruoming,LE Q V. EfficientDet:scalable and efficient object detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:10778-10787.

    [9]

    XIAO Jinsheng,GUO Haowen,ZHOU Jian,et al. Tiny object detection with context enhancement and feature purification[J]. Expert Systems with Applications,2023,211. DOI: 10.1016/j.eswa.2022.118665.

    [10]

    RABBI J,RAY N,SCHUBERT M,et al. Small-object detection in remote sensing images with end-to-end edge-enhanced gan and object detector network[J]. Remote Sensing,2020,12(9). DOI: 10.20944/preprints202003.0313.v2.

    [11] 曹帅,董立红,邓凡,等. 基于YOLOv7−SE的煤矿井下场景小目标检测方法[J]. 工矿自动化,2024,50(3):35-41.

    CAO Shuai,DONG Lihong,DENG Fan,et al. A small object detection method for coal mine underground scene based on YOLOv7-SE[J]. Journal of Mine Automation,2024,50(3):35-41.

    [12]

    LIU Can,WANG Kaige,LI Qing,et al. Powerful-IoU:more straightforward and faster bounding box regression loss with a nonmonotonic focusing mechanism[J]. Neural Networks,2024,170:276-284. DOI: 10.1016/j.neunet.2023.11.041

    [13]

    LU Wei,CHEN Sibao,TANG Jin,et al. A robust feature downsampling module for remote-sensing visual tasks[J]. IEEE Transactions on Geoscience and Remote Sensing,2023,61. DOI: 10.1109/TGRS.2023.3282048.

    [14] 吴一全,童康. 基于深度学习的无人机航拍图像小目标检测研究进展[J]. 航空学报,2025,46(3):181-207.

    WU Yiquan,TONG Kang. Research advances on deep learning-based small object detection in UAV aerial images[J]. Acta Aeronautica et Astronautica Sinica,2025,46(3):181-207.

    [15]

    WANG C Y,MARK LIAO H Y,WU Y H,et al. CSPNet:a new backbone that can enhance learning capability of CNN[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,Seattle,2020:1571-1580.

    [16]

    CUI Yuning,REN Wenqi,KNOLL A. Omni-kernel network for image restoration[C]. The 38th AAAI Conference on Artificial Intelligence,Vancouver,2024:1426-1434.

    [17]

    ZHAO Qi,LIU Binghao,LYU Shuchang,et al. TPH-YOLOv5++:boosting object detection on drone-captured scenarios with cross-layer asymmetric transformer[J]. Remote Sensing,2023,15(6). DOI: 10.3390/rs15061687.

    [18]

    GUI Zhiyong,CHEN Jianneng,LI Yang,et al. A lightweight tea bud detection model based on Yolov5[J]. Computers and Electronics in Agriculture,2023,205. DOI: 10.1016/j.compag.2023.107636.

    [19]

    WANG Xueqiu,GAO Huanbing,JIA Zemeng,et al. BL-YOLOv8:an improved road defect detection model based on YOLOv8[J]. Sensors,2023,23(20). DOI: 10.3390/s23208361.

    [20]

    CAO Yukang,PANG Dandan,ZHAO Qianchuan,et al. Improved YOLOv8-GD deep learning model for defect detection in electroluminescence images of solar photovoltaic modules[J]. Engineering Applications of Artificial Intelligence,2024,131. DOI: 10.1016/j.engappai.2024.107866.

    [21]

    ZHAO Yian,LV Wenyu,XU Shangliang,et al. DETRs beat YOLOs on real-time object detection[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2024:16965-16974.

图(8)  /  表(3)
计量
  • 文章访问数:  108
  • HTML全文浏览量:  18
  • PDF下载量:  36
  • 被引次数: 0
出版历程
  • 收稿日期:  2025-02-12
  • 修回日期:  2025-04-26
  • 网络出版日期:  2025-05-07
  • 刊出日期:  2025-04-14

目录

/

返回文章
返回