井下矿工多目标检测与跟踪联合算法

周孟然; 李学松; 朱梓伟; 黄凯文

doi:10.13272/j.issn.1671-251x.2022060040

井下矿工多目标检测与跟踪联合算法

安徽理工大学电气与信息工程学院, 安徽淮南　232001

基金项目: 国家重点研发计划项目（2018YFC0604503）；安徽省自然科学基金资助项目（2008085UD06）。

详细信息

作者简介:
周孟然(1965—)，男，安徽淮南人, 教授，博士，博士研究生导师，研究方向为矿山机电系统监测、光电信息处理、煤矿安全监测监控，E-mail：mrzhou8521@163.com

中图分类号: TD67
计量
- 文章访问数: 376
- HTML全文浏览量: 61
- PDF下载量: 54
出版历程
- 收稿日期: 2022-06-12
- 修回日期: 2022-09-23
- 网络出版日期: 2022-08-11
- 刊出日期: 2022-10-25

A joint algorithm of multi-target detection and tracking for underground miners

School of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China

摘要

摘要: 针对现有的煤矿井下矿工多目标跟踪算法检测速度慢、识别精度低等问题，提出了一种基于改进YOLOv5s模型与改进Deep SORT算法的多目标检测与跟踪联合算法。多目标检测部分，在YOLOv5s的基础上进行改进，得到YOLOv5s−GAD模型：引入幻象瓶颈卷积（GhostConv）模块和深度可分离卷积（DWConv）模块，分别替换YOLOv5s模型骨干网络和路径聚合网络中的BottleneckCSP模块，以提高特征提取速度；针对井下光线暗、图像噪点多等特点，在最小特征图中引入高效通道注意力神经网络（ECA−Net）模块，以提高模型整体精度。多目标跟踪部分，使用全尺度网络（OSNet）替换Deep SORT中的浅层残差网络进行全方位特征学习，以更好地实现行人重识别，提高目标跟踪的准确性。实验结果表明：在自定义数据集Miner21上，YOLOv5s−GAD模型的平均精度（交并比为0.5时）达97.8%，帧率达140.2 帧/s，多目标检测效果优于常用的Faster RCNN，YOLOv3，YOLOv5s模型；在公开行人数据集MOT17上，多目标检测与跟踪联合算法的速度与准确率等综合性能优于IOU17，Deep SORT等常用多目标跟踪算法，人员身份转换次数最少，行人重识别效果最好；采用井下矿工多目标检测与跟踪联合算法能够及时检测并跟踪井下矿工，多目标跟踪效果良好。
- 煤矿安全 /
- 多目标检测与跟踪 /
- 行人重识别 /
- YOLOv5s /
- YOLOv5s−GAD /
- Deep SORT /
- 全尺度网络
Abstract: The existing multi-target tracking algorithms for underground miners has the problems of slow detection speed and low recognition precision. In order to solve the above problems, a joint algorithm of multi-target detection and tracking algorithm based on the improved YOLOv5s model and the improved Deep SORT algorithm is proposed. In the part of multi-target detection, the YOLOv5s-GAD model is obtained by improving YOLOv5s model. The GhostConv module and the depthwise separable convolution (DWConv) module are introduced to replace the BottleneckCSP module in the YOLOv5s model backbone network and path aggregation network respectively. Therefore, the feature extraction speed is improved. Considering the characteristics of dark underground light and many noisy images, the efficient channel attention neural network (ECA-Net) module is introduced into the minimum feature map to improve the model's overall precision. In the part of multi-target tracking, the omni-scale network (OSNet) is used to replace the shallow residual network in Deep SORT to carry out omni-directional feature learning. Therefore, pedestrian re-identification and target tracking precision are improved. The experimental result shows that on the custom dataset Miner21, the YOLOv5s-GAD model average preciscom (when the intersection of union ratio is 0.5) reaches 97.8%, and the frame rate reaches 140.2 frames/s. The multi-target detection effect is better than the commonly used Faster RCNN, YOLOv3 and YOLOv5s models. On the public miners dataset MOT17, the speed and accuracy of the multi-target detection and tracking joint algorithm are better than those of IOU17, Deep SORT and other common multi-target tracking algorithms. The proposed model has the least number of personnel identity conversions and the best miner re-recognition effect. The joint algorithm of multi-target detection and tracking for underground miners can detect and track underground miners in time, and the multi-target tracking effect is good.
- coal mine safety /
- multi-target detection and tracking /
- miner re-recognition /
- YOLOv5s /
- YOLOv5s-GAD /
- Deep SORT /
- omni-scale network

HTML全文

0. 引言

目前，大多煤矿对井下矿工的安全管理仍存在一定盲区。充分利用图像信息对多个运动目标进行检测与跟踪，对可能出现的危险进行预警，对于保障井下矿工的人身安全具有重要意义^[1]。

多目标跟踪技术是计算机视觉领域的研究热点，在自动驾驶、军事等领域都有广泛应用^[2-3]。针对井下矿工的多目标检测与跟踪，学者们已进行了不少研究。Jiang Daihong等^[4]提出了结合主成分分析和尺度不变特征变换的运动目标跟踪模型，通过均值漂移实现移动目标跟踪，但由于井下矿工服装颜色与背景颜色高度相似，特征提取精确度低。孔丽丽等^[5]采用射频识别技术实现对井下矿工的高精度定位，但需要设置大量传感器节点，成本高，且存在通信信号弱等缺点。郭曦等^[6]提出使用双目相机获取跟踪目标，并通过相关滤波算法有效解决跟踪问题，但该方法检测速度慢，难以实现实时跟踪。

随着计算机硬件的迅速发展，深度学习领域迎来了新的突破，基于检测的跟踪 (Detection Based Tracking, DBT)框架被广泛使用。DBT框架主要包括目标检测和匹配跟踪2个部分，目标检测的质量直接影响匹配跟踪的效果。① 目标检测。目标检测模型主要分为2类，一类是以Faster RCNN^[7]等为代表的两阶段检测模型，一类是以SSD，YOLO^[8-11]为代表的一阶段检测模型。两阶段检测模型虽然精度较高，但检测速度慢，不适用于实时监控场景。一阶段检测模型中，YOLO模型检测速度快、准确率高，YOLOv5s是YOLOv5系列中最小的网络模型，相对来说结构更加简单、速度更快。因此，本文在YOLOv5s的基础上进行改进，得到YOLOv5s−GAD目标检测模型。② 匹配跟踪。A. Bewley等^[12]提出了简单在线实时跟踪 (Simple Online and Realtime Tracking, SORT)算法，通过Faster RCNN获取图像特征，再通过卡尔曼滤波和匈牙利算法进行模型关联，但SORT算法主要关注的是逐帧跟踪，出现人员遮挡问题时身份转换频率非常高。N. Wojke等^[13]提出了引入深度关联度量的SORT（Deep SORT）算法，在SORT算法基础上加入浅层残差网络进行行人重识别，减少了人员身份转换次数，但浅层残差网络提取的是局部特征。为了进一步减少人员身份转换次数，本文在Deep SORT算法基础上进行改进，采用全尺度网络(Omni−Scale Network，OSNet)^[14]进行全方位特征学习，以更好地实现行人重识别，提高目标跟踪的准确性和实时性。

另外，由于煤矿井下环境特殊，光线较暗，现有的公开数据集如PASCAL VOC和MS COCO等无法完全满足井下低照度特殊场景应用需求^[15]，本文通过训练自定义的井下矿工数据集，对比常见的几种目标检测算法，验证YOLOv5s−GAD模型的有效性。

1. 井下矿工多目标检测与跟踪联合算法原理

多目标跟踪主要解决的问题是在视频序列的当前帧中找到过去帧出现的多个特征目标。井下矿工多目标检测与跟踪联合算法流程如图1所示。获取井下矿工数据集并进行预处理，通过YOLOv5s−GAD模型进行特征提取，得到检测框信息，最后通过改进Deep SORT多目标跟踪算法实现级联匹配，从而实现多目标检测与跟踪。

图 1 井下矿工多目标检测与跟踪联合算法流程

Figure 1. Flow of joint algorithm of multi-target detection and tracking for underground miners

下载: 全尺寸图片幻灯片

2. 目标检测

2.1 YOLOv5s模型结构

YOLOv5s模型中，backbone部分使用一系列CBL（Conv+BN+Leaky_ReLU）模块和BottleneckCSP模块的组合叠加，实现对输入图像的特征提取；在最后一层输出接上一个空间金字塔池化层 (Spatial Pyramid Pooling，SPP)^[16]，相比于普通的池化操作，这种方式更能增加感受野；在neck部分使用路径聚合网络(Path Aggregation Network，PANet) ^[17]，融合自底向上和自顶向下2种方式来加强骨干网络的特征提取能力；输出部分应用了多尺度融合，对于3个输出尺度，得到3种不同大小的单元格，分别用于检测对应大小的特征图像。

2.2 YOLOv5s−GAD模型

YOLOv5s−GAD模型主要包括输入、backbone、neck、输出等部分，如图2所示，其中ConCat表示连接，dw Conv表示深度卷积，pw Conv表示逐点卷积。

图 2 YOLOv5s−GAD模型

Figure 2. YOLOv5s-GAD model

下载: 全尺寸图片幻灯片

YOLOv5s−GAD模型在YOLOv5s模型的基础上进行了以下改进：

（1）在backbone部分，为了减少特征图冗余运算，降低计算成本，提高特征提取速度，引入幻象（Ghost）模块和幻象瓶颈卷积（GhostConv）模块对网络进行轻量化设计^[18]，替换原YOLOv5s模型中的卷积模块和BottleneckCSP模块，实现对输入图像的特征提取。

（2）针对井下光线暗、图像噪点多等特点，在SPP输出的最小特征图中引入高效通道注意力神经网络(Efficient Channel Attention Neural Networks, ECA−Net) 模块，使模型更多地关注感兴趣特征，提高模型整体精度。

（3）在neck部分同样进行轻量化设计^[19]，将原来的BottleneckCSP模块替换为深度可分离卷积(Depthwise Separable Convolution，DWConv)模块，以加快特征提取速度，提高实时性。

2.2.1 GhostConv模块

Ghost模块通过一半普通卷积叠加一半逐通道卷积操作实现特征提取，GhostConv模块由Ghost模块与DWConv模块前后相连并与捷径分支组合得到。普通卷积和Ghost的加速比为

$$ {{{B}}} = \dfrac{{n h' w' c k^{2} }}{{\dfrac{n}{s} h' w' c k^{2} + (s - 1) \dfrac{n}{s} h' w' m^{2} }} $$

(1)

式中：n为卷积核个数；$ h' $和$ w' $分别为特征图的高和宽；c为通道数；k和m为卷积核大小，k≈m；s为幻象特征图个数，s<<c。

化简式（1）可得

$$ {B} \approx \dfrac{{c k ^{2} }}{{\dfrac{1}{s} c k ^{2} + \dfrac{{s - 1}}{s} m^{2}}} \approx \dfrac{{s c}}{{s + c - 1}} \approx s $$

(2)

2.2.2 DWConv模块

DWConv模块是用于算力较小的移动设备或嵌入式设备的轻量化模块。由于YOLOv5s在路径聚合部分使用了参数量很大的BottleneckCSP模块，在特征提取过程中需耗费大量时间，使得井下矿工目标跟踪的实时性得不到保障，所以用DWConv模块替换路径聚合部分的BottleneckCSP。

标准卷积过程如图3所示。对于输入尺寸为$ {{{D}}_{\rm{F}}} \times {D_{\rm{F}}} $的特征图，通过N个大小为$ {{{D}}_{\rm{K}}} \times {D_{\rm{K}}} $、深度为M的卷积核进行特征提取，输出图像尺寸为${D_{\rm{W}}} \times {D_{\rm{W}}} $。标准卷积的参数量为

图 3 标准卷积过程

Figure 3. Standard convolution process

下载: 全尺寸图片幻灯片

$$ {C_1} = {D_{\rm{F}}^{2}} M {D_{\rm{K}} ^{2}} N $$

(3)

DWConv过程如图4所示。将普通卷积的1步操作拆分成2步执行。先通过M个大小为$ {{{D}}_{\rm{K}}} \times {D_{\rm{K}}} $、深度为1的卷积核进行深度卷积，再通过N个大小为1×1、深度为M的卷积核进行逐点卷积。深度卷积负责滤波，逐点卷积负责转换通道。DWConv的参数量为

图 4 DWConv过程

Figure 4. Depthwise separable convolution process

下载: 全尺寸图片幻灯片

$$ {C_2} = {D_{\rm{F}}^{2}} M {D_{\rm{K}}^{2}} + M N {D_{\rm{F}}^{2}} $$

(4)

DWConv与标准卷积的参数量之比为

$$\begin{split} \frac{{{C_2}}}{{{C_1}}} =& \frac{{{D_{\rm{F}}^{2}} M {D_{\rm{K}}^{2}} + M N {D_{\rm{F}}^2} }}{{{D_{\rm{F}}^{2}} M {D_{\rm{K}}^{2}} N}} = \frac{1}{N} + \frac{1}{{D_{\rm{K}}^2}} \end{split}$$

(5)

因为N和D_K的值都很大，所以C₂与C₁的比值远小于1，说明DWConv模块可明显减少网络模型的参数量，加快模型的训练速度。

2.2.3 ECA−Net模块

注意力机制能够改善卷积神经网络的性能^[20-22]，但目前大部分研究都是用更复杂的结构来提升性能，Wang Qilong等^[23]提出了一种基于一维卷积的局部跨通道交互策略，兼顾了网络性能及复杂度。在不降低维度的条件下输入特征图，由通道注意力机制获得通道权重$ \omega $的通用计算公式：

$$ \omega = J \left(\left\{{{\boldsymbol{W}}}_{1},{{\boldsymbol{W}}}_{2}\right\}y\right) $$

(6)

式中：J（·）为ReLU激活函数；W₁，W₂为带状矩阵；y为通道全局平均池化。

由式(6)可知，通道与其权重之间的对应关系是间接的，ECA−Net使用第K个带状矩阵$ {W_K} $来学习通道注意力，对于第a个通道的全局平均池化$ {y_a} $，只考虑其与K个相邻通道的信息交互，忽视其他干扰信息。第a个通道的权重为

$$ { \omega }_{a}=\sigma \left(\sum\limits_{b=1}^{K}{{\boldsymbol{W}}}_{ab}^{}{y}_{ab}^{}\right) $$

(7)

式中：$\sigma $（·）为激活函数；W_ab，y_ab分别为第a个通道的第b个相邻通道的带状矩阵和全局平均池化。

最后使用卷积核大小为S的一维卷积$ {V}_{S} $来获取最终权重：

$$ \omega {'}=\sigma \left({V}_{S}\right(y\left)\right) $$

(8)

3. Deep SORT多目标跟踪算法改进

匹配关联模型是DBT框架的核心，其目的是将目标检测获得的检测框与卡尔曼滤波器获得的预测框关联起来，并通过对各目标标记ID来确定身份。Deep SORT算法的级联匹配融合了2种度量方式：一种是通过目标的运动信息计算检测框与预测框之间的马氏距离，实现状态匹配；另一种是通过引入检测目标的外观信息，对浅层残差网络提取的128维特征向量进行关联，计算特征向量与检测框的最小余弦距离，实现状态匹配。

第i个预测框与第j个检测框的马氏距离为

$$ {E_{1}{}}(i,j) = {[{{\boldsymbol{d}}_t}(j) - {{\boldsymbol{f}}_t}(i)]^{\rm{T}}}{{\boldsymbol{Q}}^{ - 1}_t}{(i)}[{{\boldsymbol{d}}_t}(j) - {{\boldsymbol{f}}_t}(i)] $$

(9)

式中：$ {{\boldsymbol{d}}_t}(j) $为第t条轨迹的第j个检测框；$ {{\boldsymbol{f}}_t}(i) $为第t条轨迹的第i个预测框；$ {{\boldsymbol{Q}}_t}(i) $为检测状态和估计状态的平均协方差矩阵。

第i个预测框与第j个检测框的最小余弦距离为

$$ {E_{2}}(i,j) = \min ( 1 - {{\boldsymbol{r}}_j}^{\rm{T}}{{\boldsymbol{r}}_t}^{(i)}|{{\boldsymbol{r}}_t}^{(i)} \in {\Re _i}) $$

(10)

式中：$ {{\boldsymbol{r}}_j} $为利用第j个检测框在行人重识别中提取的128维特征向量；$ {{\boldsymbol{r}}_t}^{(i)} $为第t条轨迹的第i个特征向量；$ {\Re _i} $为最近100帧内特征向量的集合。

将上述结果按权重λ加入代价矩阵中，得到第i个预测框与第j个检测框总的匹配指标为

$$ {P_{i,j}} = \lambda {E_{1}}(i,j) + (1 - \lambda ){E_{2}}(i,j) $$

(11)

最后用匈牙利算法得到匹配结果。

由于浅层残差网络提取的是局部特征，为了进一步减少人员身份转换次数，本文使用OSNet替换Deep SORT算法中行人重识别部分的浅层残差网络。OSNet结构如图5所示。通过全局平均池化实现的聚合门（Aggregation Gate, AG）按照特定比例对4种特征尺度进行动态组合，以减少因遮挡等原因产生的身份转换现象。另外，在普通的3×3卷积中加入DWConv模块，以减少模型参数，提高训练速度。

图 5 OSNet结构

Figure 5. Omni-scale network structure

下载: 全尺寸图片幻灯片

4. 实验分析

深度学习的硬件平台为计算机，CPU 型号为Intel i5−9400F，GPU型号为NVIDIA GTX 1070−8G，采用Windows 10操作系统，结合配套驱动工具CUDA10.1及深度学习加速库cuDNN8.0.4，在Pytorch1.8.1框架下，使用Pycharm集成开发环境实现目标检测及跟踪模型的训练与验证。

4.1 数据集的选取与处理

数据集分为目标检测数据集和目标跟踪数据集2个部分。检测部分的井下矿工数据集来自于2021年10月安徽淮南某矿区底抽巷道作业监控视频^[24]，通过自定义的python脚本进行视频抽帧，共采集1 636张图像，图像尺寸为1 920×1 280像素。由于识别对象是井下矿工，所以忽略了视频中其他所有类别，类别标签仅有1个，即Person类。使用开源标注软件LabelImg对图像进行人工标注，用矩形框确定目标所在区域，如图6所示。将数据集按照9∶1的比例划分为训练集与验证集，训练集1 472张，验证集164张。通过加载部分预训练权重的迁移学习方法，在自定义数据集Miner21上进行微调训练。跟踪部分数据集使用公开行人数据集MOT17中除MOT17−06以外的视频序列。

图 6 数据集图像

Figure 6. Dataset image

下载: 全尺寸图片幻灯片

4.2 YOLOv5s−GAD模型消融实验

为了验证YOLOv5s−GAD模型的有效性，在Miner21数据集上迭代100轮进行消融实验。采用随机裁剪、拉伸等方法进行数据增强，以增强模型的泛化能力。以YOLOv5s为基准网络，分别加入GhostConv，ECA−Net模块及其与DWConv组合进行实验，并调用YOLOv5的自适应anchor脚本，使用迁移学习方法加载部分预训练权重，训练结果见表1，其中A_P为交并比为0.5时的平均精度。

表 1 不同模型消融实验结果

Table 1. Ablation experiment results of different models

模型	图像尺寸/像素	参数量/ 10⁶个	计算量/ byte	A_P/%	帧率/ (帧·s⁻¹)
基准网络	640×640	7.2	16.5	96.6	56.3
加入 GhostConv	640×640	5.5	9.6	95.9	98.6
加入 GhostConv, DWConv	640×640	0.7	3.5	94.5	165.1
加入 ECA−Net	640×640	7.8	18.2	98.2	47.2
加入GhostConv, DWConv , ECA−Net	640×640	1.2	4.2	97.8	140.2

下载: 导出CSV

| 显示表格

由表1可知，在基准网络中加入GhostConv后，虽然精度降低了0.7%，但是参数量减少了近200万个；同时加入GhostConv和DWConv后，参数量减少至原来的1/10，帧率提升至原来的3倍左右，大大提升了模型的训练速度；加入ECANet后，虽然参数量略增加，但检测精度提升了1.6%；同时加入上述3个模块后，检测精度提升了1.2%，帧率提高了83.9帧/s。各模型训练过程如图7所示。训练至第45轮时模型渐渐收敛并趋于稳定。

图 7 各模型训练过程

Figure 7. Training process of each model

下载: 全尺寸图片幻灯片

4.3 目标检测实验

为了验证YOLOv5s−GAD模型的检测效果，采用常用的Faster RCNN，YOLOv3及YOLOv5s进行对比实验。同样在Miner21数据集上进行100轮迭代训练，结果如图8所示。可看出YOLOv3模型出现了漏检情况，且精度较低，YOLOv5s−GAD模型的精度最高，说明在自定义的验证集上，引入注意力机制后的模型更适合井下低照度的特殊需求，目标检测效果更好。

图 8 各种目标检测模型效果对比

Figure 8. Comparison of effects of various target detection models

下载: 全尺寸图片幻灯片

各种目标检测模型对比实验结果见表2。可看出YOLOv5s−GAD模型虽然检测精度低于Faster RCNN，但是速度提升了近16倍；与YOLOv3模型相比， YOLOv5s−GAD模型平均精度提升了24.9%，帧率提升了119.8 帧/s；与原始的YOLOv5s模型相比，YOLOv5s−GAD模型平均精度提升了1.2%，帧率提升了83.9帧/s，模型的训练速度及精度都得到了明显提升。

表 2 目标检测模型实验结果

Table 2. Experimental results of target detection models

模型	图像尺寸/像素	参数量/ 10⁶个	计算量/ byte	A_P/%	帧率/ (帧·s⁻¹)
Faster RCNN	600×600	84.0	200.0	98.3	8.4
YOLOv3	640×640	32.0	79.6	72.9	20.4
YOLOv5s	640×640	7.2	16.5	96.6	56.3
YOLOv5s−GAD	640×640	1.2	4.2	97.8	140.2

下载: 导出CSV

| 显示表格

4.4 多目标检测与跟踪联合算法性能验证

为了验证多目标检测与跟踪联合算法的有效性，采用常见的多目标跟踪算法进行对比，包括IOU17^[25]，MOTDT17^[26]，Deep SORT，FairMOT^[27]。采用MOT17中除MOT17−06以外的视频序列进行实验，并选取文献[28]提出的部分常用评价指标进行评估，结果见表3。其中A为多目标跟踪准确率，R为正确识别的检测数与真实检测数的比值，I为跟踪目标身份切换次数， T为成功跟踪目标百分比，L为丢失目标百分比。可看出IOU17算法虽然速度最快，但是准确率低于本文算法；MOTDT，Deep SORT，FairMOT虽然准确率高，但帧率远低于本文算法，实时性得不到保障。权衡速度与准确率，在MOT17测试序列上，采用YOLOv5s−GAD模型和改进Deep SORT算法时人员身份转换次数最少，行人重识别效果最好。

表 3 多目标检测与跟踪联合算法实验结果

Table 3. Experimental results of joint algorithms of multi-target detection and tracking

算法	A/%	R/%	I	T/%	L/%	帧率/(帧·s⁻¹)
IOU17	45.5	39.4	5 988	15.7	40.5	147.8
MOTDT17	50.9	52.7	2 474	17.5	35.7	20.6
Deep SORT	60.3	61.2	2 442	31.5	20.3	20.0
FairMOT	73.7	72.3	3 303	43.2	17.3	25.9
本文算法	55.2	54.2	1 523	20.0	35.5	88.0

下载: 导出CSV

| 显示表格

联合YOLOv5s−GAD模型和改进Deep SORT算法进行多目标检测与跟踪，结果如图9所示。可看出在连续序列帧中，即使出现行人交错重叠，跟踪的ID号也没有发生改变，对新出现的井下矿工也能及时跟踪并匹配ID，跟踪效果良好。

图 9 井下矿工多目标检测与跟踪结果

Figure 9. Multi-target detection and tracking results of underground miners

下载: 全尺寸图片幻灯片

5. 结论

（1）通过引入GhostConv模块和DWConv模块，替换YOLOv5s模型骨干网路和路径聚合网络中的BottleneckCSP模块，提高矿工目标的特征提取速度。通过引入ECA−Net模块，提高矿工多目标检测精度。

（2）使用全尺度网络替换Deep SORT中的浅层残差网络，可进一步减少人员身份转换次数，更好地实现行人重识别，提高目标跟踪的准确性。

（3）实验结果表明：在自定义数据集Miner21上，YOLOv5s−GAD模型的平均精度达97.8%，帧率达140.2 帧/s；在公开行人数据集MOT17上，多目标检测与跟踪联合算法的速度与准确率等综合性能优于IOU17，Deep SORT等常用多目标跟踪算法，能够满足井下矿工多目标跟踪的实时性和准确性需求。

图 1 井下矿工多目标检测与跟踪联合算法流程

Figure 1. Flow of joint algorithm of multi-target detection and tracking for underground miners

下载: 全尺寸图片幻灯片

图 2 YOLOv5s−GAD模型

Figure 2. YOLOv5s-GAD model

下载: 全尺寸图片幻灯片

图 3 标准卷积过程

Figure 3. Standard convolution process

下载: 全尺寸图片幻灯片

图 4 DWConv过程

Figure 4. Depthwise separable convolution process

下载: 全尺寸图片幻灯片

图 5 OSNet结构

Figure 5. Omni-scale network structure

下载: 全尺寸图片幻灯片

图 6 数据集图像

Figure 6. Dataset image

下载: 全尺寸图片幻灯片

图 7 各模型训练过程

Figure 7. Training process of each model

下载: 全尺寸图片幻灯片

图 8 各种目标检测模型效果对比

Figure 8. Comparison of effects of various target detection models

下载: 全尺寸图片幻灯片

图 9 井下矿工多目标检测与跟踪结果

Figure 9. Multi-target detection and tracking results of underground miners

下载: 全尺寸图片幻灯片

表 1 不同模型消融实验结果

Table 1 Ablation experiment results of different models

模型	图像尺寸/像素	参数量/ 10⁶个	计算量/ byte	A_P/%	帧率/ (帧·s⁻¹)
基准网络	640×640	7.2	16.5	96.6	56.3
加入 GhostConv	640×640	5.5	9.6	95.9	98.6
加入 GhostConv, DWConv	640×640	0.7	3.5	94.5	165.1
加入 ECA−Net	640×640	7.8	18.2	98.2	47.2
加入GhostConv, DWConv , ECA−Net	640×640	1.2	4.2	97.8	140.2

下载: 导出CSV

表 2 目标检测模型实验结果

Table 2 Experimental results of target detection models

模型	图像尺寸/像素	参数量/ 10⁶个	计算量/ byte	A_P/%	帧率/ (帧·s⁻¹)
Faster RCNN	600×600	84.0	200.0	98.3	8.4
YOLOv3	640×640	32.0	79.6	72.9	20.4
YOLOv5s	640×640	7.2	16.5	96.6	56.3
YOLOv5s−GAD	640×640	1.2	4.2	97.8	140.2

下载: 导出CSV

表 3 多目标检测与跟踪联合算法实验结果

Table 3 Experimental results of joint algorithms of multi-target detection and tracking

算法	A/%	R/%	I	T/%	L/%	帧率/(帧·s⁻¹)
IOU17	45.5	39.4	5 988	15.7	40.5	147.8
MOTDT17	50.9	52.7	2 474	17.5	35.7	20.6
Deep SORT	60.3	61.2	2 442	31.5	20.3	20.0
FairMOT	73.7	72.3	3 303	43.2	17.3	25.9
本文算法	55.2	54.2	1 523	20.0	35.5	88.0

下载: 导出CSV

参考文献(28)

[1]	张立亚. 基于动目标特征提取的矿井目标监测[J]. 煤炭学报,2017,42(增刊2):603-610. DOI: 10.13225/j.cnki.jccs.2017.1333 ZHANG Liya. Mine target monitoring based on feature extraction of moving target[J]. Journal of China Coal Society,2017,42(S2):603-610. DOI: 10.13225/j.cnki.jccs.2017.1333
[2]	刘艺,李蒙蒙,郑奇斌,等. 视频目标跟踪算法综述[J]. 计算机科学与探索,2022,16(7):1504-1515. DOI: 10.3778/j.issn.1673-9418.2111105 LIU Yi,LI Mengmeng,ZHENG Qibin,et al. Survey on video object tracking algorithms[J]. Journal of Frontiers of Computer Science and Technology,2022,16(7):1504-1515. DOI: 10.3778/j.issn.1673-9418.2111105
[3]	CIAPARRONE G,SANCHEZ F L,TABIK S,et al. Deep learning in video multi-object tracking:a survey[J]. Neurocomputing,2020,381:61-88. DOI: 10.1016/j.neucom.2019.11.023
[4]	JIANG Daihong,DAI Lei,LI Dan,et al. Moving-object tracking algorithm based on PCA-SIFT and optimization for underground coal mines[J]. IEEE Access,2019,7:35556-35563. DOI: 10.1109/ACCESS.2019.2899362
[5]	孔丽丽,易春求. 矿用智能安全头盔的设计[J]. 中国矿业,2020,29(12):95-98,115. KONG Lili,YI Chunqiu. Design of mine intelligent safety helmet[J]. China Mining Magazine,2020,29(12):95-98,115.
[6]	郭曦,谢炜,朱红秀,等. 井下目标跟踪与测距方法研究[J]. 煤炭工程,2019,51(3):117-121. GUO Xi,XIE Wei,ZHU Hongxiu,et al. Target tracking and ranging method in underground mine[J]. Coal Engineering,2019,51(3):117-121.
[7]	REN Shaoqing,HE Kaiming,GIRSHICK R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149. DOI: 10.1109/TPAMI.2016.2577031
[8]	王琳,卫晨,李伟山,等. 结合金字塔池化模块的YOLOv2的井下行人检测[J]. 计算机工程与应用,2019,55(3):133-139. DOI: 10.3778/j.issn.1002-8331.1710-0236 WANG Lin,WEI Chen,LI Weishan,et al. Pedestrian detection based on YOLOv2 with pyramid pooling module in underground coal mine[J]. Computer Engineering and Applications,2019,55(3):133-139. DOI: 10.3778/j.issn.1002-8331.1710-0236
[9]	REDMON J, FARHADI A. Yolov3: an incremental improvement[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1804.02767.
[10]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: optimal speed and accuracy of object detection[EB/OL]. [2022-05-10]. https://arxiv.org/abs/2004.10934.
[11]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 2016: 779-788.
[12]	BEWLEY A, GE Z, OTT L, et al. Simple online and real-time tracking[C]. IEEE International Conference on Image Processing, Phoenix, 2016: 3464-3468.
[13]	WOJKE N, BEWLEY A, PAULUS D. Simple online and real-time tracking with a deep association metric[C]. IEEE International Conference on Image Processing, Beijing, 2017: 3645-3649.
[14]	ZHOU Kaiyang, YANG Yongxin, CAVALLARO A, et al. Omni-scale feature learning for person re-identification[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1905.00953.
[15]	孙彦景,魏力,张年龙,等. 联合DD−GAN和全局特征的井下人员重识别方法[J]. 西安电子科技大学学报,2021,48(5):201-211. DOI: 10.19665/j.issn1001-2400.2021.05.023 SUN Yanjing,WEI Li,ZHANG Nianlong,et al. Person re-identification method combining the DD-GAN and global feature in a coal mine[J]. Journal of Xidian University,2021,48(5):201-211. DOI: 10.19665/j.issn1001-2400.2021.05.023
[16]	HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916. DOI: 10.1109/TPAMI.2015.2389824
[17]	LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1803.01534.
[18]	HAN Kai, WANG Yunhe, TIAN Qi, et al. Ghostnet: more features from cheap operations[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 2020: 1580-1589.
[19]	HOWARD A G, ZHU Menglong, CHEN Bo, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2022-05-10]. https://arxiv.org/abs/1704.04861.
[20]	GUO Menghao,XU Tianxing,LIU Jiangjiang,et al. Attention mechanisms in computer vision:a survey[J]. Computational Visual Media,2022(3):331-368.
[21]	CHAUDHAN S,MITHAL V,POLATKAN G,et al. An attentive survey of attention models[J]. ACM Transactions on Intelligent Systems and Technology,2021,12(5):1-32.
[22]	张宸嘉,朱磊,俞璐. 卷积神经网络中的注意力机制综述[J]. 计算机工程与应用,2021,57(20):64-72. ZHANG Chenjia,ZHU Lei,YU Lu. Review of attention mechanism in convolutional neural networks[J]. Computer Engineering and Applications,2021,57(20):64-72.
[23]	WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 2020: 11531-11539.
[24]	陈翰林. 基于YOLO v4−tiny的煤矿职工井下违章行为识别的研究[D]. 淮南: 安徽理工大学, 2021. CHEN Hanlin. Identification of underground violation behavior of coal mine workers based on YOLO v4-tiny[D]. Huainan: Anhui University of Science and Technology, 2021.
[25]	BOVHINSKI E, EISELEIN V, SIKORA T. High-speed tracking-by-detection without using image information[C]. 14th IEEE International Conference on Advanced Video and Signal Based Surveillance, Lecce, 2017: 1-6.
[26]	CHEN Long, AI Haizhou, ZHUANG Zijie, et al. Real-time multiple people tracking with deeply learned candidate selection and person re-identification[C]. IEEE International Conference on Multimedia and Expo, San Diego, 2018: 1-6.
[27]	ZHANG Yifu,WANG Chunyu,WANG Xinggang,et al. Fairmot:on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision,2021,129(11):3069-3087. DOI: 10.1007/s11263-021-01513-4
[28]	BERNARDIN K, STIEFELHAGEN R. Evaluating multiple object tracking performance: the clear mot metrics[J]. EURASIP Journal on Image and Video Processing, 2008. DOI: 10.1155/2008/246309.

施引文献(16)

期刊类型引用(5)

1.	陈湘源，饶天荣，潘涛. 基于半监督学习的煤矿井下行人检测模型. 煤炭技术. 2024(02): 231-234 . 百度学术
2.	王娜，温静，冯佳，卢娜利，刘翠华，智佳，王子阳，黄锦. 基于人工智能深度学习算法辅助诊断早期ESCC的研究. 胃肠病学和肝病学杂志. 2024(02): 156-161 . 百度学术
3.	罗磊，谢竹逵. 基于改进YOLOv8的交通标志检测算法. 机电工程技术. 2024(03): 205-210 . 百度学术
4.	杨伟康，吕文生，杨鹏，张宇栋，党龙飞. 基于倒置残差的井下无人车目标检测研究. 矿业研究与开发. 2024(04): 222-227 . 百度学术
5.	孙林，陈圣，姚旭龙，张艳博，陶志刚，梁鹏. 煤矿井下残缺信息的多目标检测方法研究. 煤炭科学技术. 2024(S2): 211-220 . 百度学术

其他类型引用(11)

资源附件(0)

图(9) / 表(3)

计量

文章访问数: 376
HTML全文浏览量: 61
PDF下载量: 54
被引次数: 16

0. 引言
1. 井下矿工多目标检测与跟踪联合算法原理
2. 目标检测
2.1 YOLOv5s模型结构
2.2 YOLOv5s−GAD模型
2.2.1 GhostConv模块
2.2.2 DWConv模块
2.2.3 ECA−Net模块
3. Deep SORT多目标跟踪算法改进
4. 实验分析
4.1 数据集的选取与处理
4.2 YOLOv5s−GAD模型消融实验
4.3 目标检测实验
4.4 多目标检测与跟踪联合算法性能验证
5. 结论

0. 引言
1. 井下矿工多目标检测与跟踪联合算法原理
2. 目标检测
2.1 YOLOv5s模型结构
2.2 YOLOv5s−GAD模型
2.2.1 GhostConv模块
2.2.2 DWConv模块
2.2.3 ECA−Net模块
3. Deep SORT多目标跟踪算法改进
4. 实验分析
4.1 数据集的选取与处理
4.2 YOLOv5s−GAD模型消融实验
4.3 目标检测实验
4.4 多目标检测与跟踪联合算法性能验证
5. 结论

参考文献(28)

施引文献(16)

资源附件(0)

井下矿工多目标检测与跟踪联合算法

作者简介: 周孟然(1965—)，男，安徽淮南人, 教授，博士，博士研究生导师，研究方向为矿山机电系统监测、光电信息处理、煤矿安全监测监控，E-mail：mrzhou8521@163.com

计量

出版历程

A joint algorithm of multi-target detection and tracking for underground miners

0. 引言

1. 井下矿工多目标检测与跟踪联合算法原理

2. 目标检测

2.1 YOLOv5s模型结构

2.2 YOLOv5s−GAD模型

2.2.1 GhostConv模块

2.2.2 DWConv模块

2.2.3 ECA−Net模块

3. Deep SORT多目标跟踪算法改进

4. 实验分析

4.1 数据集的选取与处理

4.2 YOLOv5s−GAD模型消融实验

4.3 目标检测实验

4.4 多目标检测与跟踪联合算法性能验证

5. 结论

期刊类型引用(5)

其他类型引用(11)

计量

出版历程

目录

0. 引言

1. 井下矿工多目标检测与跟踪联合算法原理

2. 目标检测

2.1 YOLOv5s模型结构

2.2 YOLOv5s−GAD模型

2.2.1 GhostConv模块

2.2.2 DWConv模块

2.2.3 ECA−Net模块

3. Deep SORT多目标跟踪算法改进

4. 实验分析

4.1 数据集的选取与处理

4.2 YOLOv5s−GAD模型消融实验

4.3 目标检测实验

4.4 多目标检测与跟踪联合算法性能验证

5. 结论

作者简介:
周孟然(1965—)，男，安徽淮南人, 教授，博士，博士研究生导师，研究方向为矿山机电系统监测、光电信息处理、煤矿安全监测监控，E-mail：mrzhou8521@163.com