基于Social Transformer的井下多人轨迹预测方法

马征, 杨大山, 张天翔

马征,杨大山,张天翔. 基于Social Transformer的井下多人轨迹预测方法[J]. 工矿自动化,2024,50(5):67-74. DOI: 10.13272/j.issn.1671-251x.2023110084
引用本文: 马征,杨大山,张天翔. 基于Social Transformer的井下多人轨迹预测方法[J]. 工矿自动化,2024,50(5):67-74. DOI: 10.13272/j.issn.1671-251x.2023110084
MA Zheng, YANG Dashan, ZHANG Tianxiang. Multi-personnel underground trajectory prediction method based on Social Transformer[J]. Journal of Mine Automation,2024,50(5):67-74. DOI: 10.13272/j.issn.1671-251x.2023110084
Citation: MA Zheng, YANG Dashan, ZHANG Tianxiang. Multi-personnel underground trajectory prediction method based on Social Transformer[J]. Journal of Mine Automation,2024,50(5):67-74. DOI: 10.13272/j.issn.1671-251x.2023110084

基于Social Transformer的井下多人轨迹预测方法

基金项目: 中央高校基本科研业务费专项项目(FRF-TP-24-060A);天地科技股份有限公司科技创新创业资金专项项目(2023-TD-ZD005-005,2023CG-ZB-10)。
详细信息
    作者简介:

    马征(1996—),男,山东济宁人,硕士,现从事矿井视频分析技术方面的研究工作,E-mail:mazheng@ccrise.cn

  • 中图分类号: TD67

Multi-personnel underground trajectory prediction method based on Social Transformer

  • 摘要: 目前煤矿井下人员轨迹预测方法中,Transformer与循环神经网络(RNN)、长短期记忆(LSTM)网络相比,在处理数据时不仅计算量小,同时还有效解决了梯度消失导致的长时依赖问题。但当环境中涉及多人同时运动时,Transformer对于场景中所有人员未来轨迹的预测会出现较大偏差。并且目前在井下多人轨迹预测领域尚未出现一种同时采用Transformer并考虑个体之间相互影响的模型。针对上述问题,提出一种基于Social Transformer的井下多人轨迹预测方法。首先对井下每一个人员独立建模,获取人员历史轨迹信息,通过Transformer编码器进行特征提取,接着由全连接层对特征进行表示,然后通过基于图卷积的交互层相互连接,该交互层允许空间上接近的网络彼此共享信息,计算预测对象在受到周围邻居影响时对周围邻居分配的注意力,从而提取其邻居的运动模式,继而更新特征矩阵,最后新的特征矩阵由Transformer解码器进行解码,输出对于未来时刻的人员位置信息预测。实验结果表明,Social Transformer的平均位移误差相较于Transformer降低了45.8%,且与其他主流轨迹预测方法LSTM,S−GAN,Trajectron++和Social−STGCNN相比分别降低了67.1%,35.9%,30.1%和10.9%,有效克服了煤矿井下多人场景中由于人员间互相影响导致预测轨迹失准的问题,提升了预测精度。
    Abstract: Currently, in the prediction methods of underground personnel trajectories in coal mines, Transformer not only has lower computational complexity compared to recurrent neural network(RNN) and long short-term memory (LSTM), but also effectively solves the problem of long-term dependence caused by gradient disappearance when processing data. But when multi personnel are moving simultaneously in the environment, the Transformer's prediction of the future trajectories of all personnel in the scene will have a significant deviation. And currently, there is no model in the field of underground multi personnel trajectory prediction that simultaneously uses Transformer and considers the mutual influence between individuals. In order to solve the above problems, a multi personnel underground trajectory prediction method based on Social Transformer is proposed. Firstly, each individual is independently modeled to obtain their historical trajectory information. Feature extraction is performed using a Transformer encoder, followed by a fully connected layer to better represent the features. Secondly, an interactive layer based on graph convolution is used to connect each other, allowing spatially close networks to share information with each other. This layer calculates the attention that the predicted object allocates to its neighbors when influenced by them, extracts their motion patterns, and updates the feature matrix. Finally, the new feature matrix are decoded by the Transformer decoder to output predictions of future position information. The experimental results show that the average displacement error of Social Transformer is reduced by 45.8% compared to Transformer. Compared with other mainstream trajectory prediction methods such as LSTM, S-GAN, Trajectoron++, and S-STGCNN, the prediction errors are reduced by 67.1%, 35.9%, 30.1%, and 10.9%, respectively. This can effectively overcome the problem of inaccurate prediction trajectories caused by mutual influence among personnel in the underground multi personnel scenario of coal mines and improve prediction precision.
  • 近年来电子围栏技术在煤矿井下危险作业区域人员安全防护领域得到广泛应用[1],但该技术仅限于对已发生危险进行判别,难以预测未发生风险。人员轨迹预测技术通过学习个体或群体移动模式,预测未来行动路径,结合电子围栏,能提前识别潜在危险,保障井下安全生产。

    早期的人员轨迹预测采用线性[2]或高斯回归模型[3-4]、时间序列分析[5]和自回归模型[6]手动计算人员未来位置,不仅计算量大、耗时长,且预测误差较大。随着神经网络的发展,Zhang Jianjing等[7]采用循环神经网络(Recurrent Neural Network,RNN)模型表示人员运动信息,例如人的速度、方向和运动模式。然而,RNN的单一信息传输通路和多次非线性激活操作在处理长期序列时可能导致长期记忆丢失[8]。为解决该问题,Song Xiao等[9]提出了基于RNN的长短期记忆(Long Short-Term Memory,LSTM)网络模型进行人员轨迹预测,LSTM引入了2条计算通道,用于解决长期记忆丢失问题。然而,由于LSTM采用顺序输入方式融入序列位置信息,导致模型并行性较差,同时过度依赖历史数据,训练复杂度高。T. Salzmann等[10]结合LSTM与CNN提出了Trajectron++,能够针对多个互动的行人生成多模态预测轨迹,但面临长时间预测的问题。A. Mohamed等[11]提出的Social−STGCNN(Spatio-Temporal Graph Convolutional Neural Network)通过建模人与人之间的关系来更好地考虑人员与周围物体相互作用的影响,但模型复杂且运算时间较长,不具备实时性。V. Shankar等[12]使用Transformer进行人员轨迹预测,具有强大的并行性。与RNN,LSTM等相比,Transformer在处理数据时显著降低了计算负担,同时有效解决了梯度消失导致的长时依赖问题。然而,Transformer在处理单人轨迹预测方面表现出色,但当环境中涉及多人同时运动时,其对于场景中所有人员未来轨迹的预测会出现明显偏差。这是因为个体在移动过程中受到周围人员的影响,而Transformer在人员轨迹预测时未充分考虑周围人员的运动状态[13-15],导致对目标轨迹的预测存在偏差。

    为解决上述问题,本文基于Transformer设计了交互层,提出了一种基于Social Transformer的井下多人轨迹预测方法。对井下每个人员进行独立建模,获取其历史轨迹信息,同时考虑目标周围人员运动状态,通过交互编码预测井下多人场景中目标的未来轨迹。

    基于Social Transformer的井下多人轨迹预测方法的网络模型结构如图1所示。首先通过Transformer编码器对多人历史轨迹信息进行特征提取,接着由全连接层对特征进行表示;然后通过交互层相互连接,该交互层允许空间上接近的网络共享信息,计算预测对象在受到周围邻居影响时对周围邻居分配的注意力,提取其邻居的运动模式,进而更新特征矩阵;最后新的特征矩阵由Transformer解码器进行解码,输出对未来时刻的人员位置信息预测。

    图  1  基于Social Transformer的井下多人轨迹预测方法的网络模型结构
    Figure  1.  Network model structure of underground multi-personnel trajectory prediction method based on Social Transformer

    Transformer网络模型结构如图2所示。Transformer由6个编码器和6个解码器组成。编码器包含自注意力层、前馈全连接层及规范化层,负责提取输入序列的特征。解码器包含自注意力层、编解码注意力层、前馈全连接层和规范化层,负责将编码器提取到的特征转换成输出。将一组包含行人当前位置二维坐标和历史位置二维坐标的序列输入Transformer模型中,通过位置编码标记时间戳后进入编码器,然后每一个编码器使用上一个编码器的输出作为输入进行特征提取,最后将特征矩阵输入解码器进行解码,得到预测结果。

    图  2  Transformer网络模型结构
    Figure  2.  Transformer network model structure

    Transformer以自注意力机制为核心,自注意力机制结构如图3所示[16]。自注意力机制可以使模型关注需要关注的部分,从而减少因关注无关部分造成的资源浪费。对于一个序列X,自注意力机制可以计算X中每个元素之间的相关程度,从而得到一个注意力矩阵。自注意力机制中有3个矩阵,分别为Q(Query,提问)矩阵、K(Key,键)矩阵及对应的V(Value,值)矩阵,QKV都是对X进行不同线性变换之后的结果,都可独立作为X的代表。

    图  3  自注意力机制结构
    Figure  3.  Self-attention mechanism structure

    图3中,首先计算QK的点积,为了防止点积结果过大,将结果除以$ d_{\mathrm{\boldsymbol{\mathit{\boldsymbol{K}}}}}(d_{\mathrm{\boldsymbol{\mathit{\boldsymbol{K}}}}} $为K的维度$ ) $,然后利用softmax将结果归一化为概率分布,再乘以V得到权重求和的表示。

    $$ A\left(i\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{\boldsymbol{Q}\cdot\boldsymbol{K}^{\mathrm{\mathit{T}}}}{\sqrt{d_{\boldsymbol{K}}}}\right)\boldsymbol{V} $$ (1)

    式中:A(i)为目标i的注意力;T为输入序列的长度。

    Social Transformer网络模型包括时序建模、周围人员寻找、信息交互编码及未来轨迹预测等关键步骤,利用自注意力机制提取目标周围邻居的运动状态,并准确评估其对目标轨迹的影响程度,弥补了传统Transformer网络模型在复杂场景下的局限性,可实现更精准的多人轨迹预测。

    Social Transformer对于多人场景中每一个行人进行独立建模,使用Transformer编码器对目标历史轨迹进行特征提取,通过自注意力机制计算行人在不同时刻位置之间的自注意力,从而提取出行人的时间维度及运动模式,并且完成时序建模。

    该建模方式不仅能够更加深入地理解每一个行人的运动特征,同时通过自注意力机制,能够捕捉到行人在不同时间点上的关键运动信息,为多人轨迹预测提供可靠的时序基础。

    令$ {h}_{i}=A\left(i\right) $,表示行人i对于自身的注意力。$ {h}_{i} $可以体现行人i的运动特征,通过建立交互层,将行人i及其邻居的特征信息融合,进而使得行人i能够提取其周围人员的运动特征信息,从而对未来轨迹做出更好的判断。

    对于每一时刻,根据行人的位置信息构建一个空间图。由于在1个场景中,1个人不可能与所有其他人同时产生联系,因此引入距离阈值R,该阈值表示在未来一段时间内可能与行人i发生交互的人与行人i之间的最大距离。若两者之间的距离大于R,则表示2人之间不存在边;若距离不大于R,则认定行人i将会与对方发生交互,即这2人之间存在边,意味着行人i的未来行动轨迹将受到对方运动状态的影响。行人i的邻居j的集合为

    $$ j\in {1}_{R}^{m}[{x}_{t}^{j}-{x}_{t}^{i},{y}_{t}^{j}-{y}_{t}^{i}] $$ (2)

    式中:m为邻居数量:($ {x}_{t}^{i},{y}_{t}^{i}),({{x}_{t}^{j},y}_{t}^{j} $)分别为行人i、邻居jt时刻的位置坐标。

    对邻居j的信息进行交互编码。本文基于图卷积设计了一种新的交互层,用于将多人的运动特征进行信息融合。

    自注意力机制可看作是无向全连接图上的消息传递,具体而言,对于行人i的运动特征信息$ {h}_{i} $,提取矩阵Q的行向量$ {\boldsymbol{q}}_{i} $、矩阵K的行向量$ {\boldsymbol{k}}_{i} $及矩阵V的行向量$ {\boldsymbol{v}}_{i} $。同理,对于邻居j,提取其矩阵Q的行向量$ {\boldsymbol{q}}_{j} $、矩阵K的行向量$ {\boldsymbol{k}}_{j} $及矩阵V的行向量$ {\boldsymbol{v}}_{j} $。则可定义图卷积中从邻居j到行人i的消息传递为

    $$ M^{j\to i}=\boldsymbol{q}_i\boldsymbol{k}_j^{\mathrm{\mathit{T}}} $$ (3)

    本文设计的交互层可以理解为一个基于注意力的图卷积机制,行人间的信息可通过图的边进行传递。对于任意图GG含有m个节点(表示邻居),代表场景内m个预测对象,这些对象互相连接。在图G中,行人i对于其邻居j分配的注意力为

    $$ A\left(ij\right)=\frac{\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}(\boldsymbol{q}_i\boldsymbol{k}_j^{\mathrm{\mathit{T}}})}{\sqrt{d_{\boldsymbol{k}_i}}}\boldsymbol{v}_j $$ (4)

    式中$ d_{\boldsymbol{k}_i} $为$ {\boldsymbol{k}}_{i} $的维度。

    因此,行人i对于所有邻居分配的注意力为

    $$ A\left(ij\right)'=f\left(\frac{\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}(\boldsymbol{q}_i\boldsymbol{k}_j^{\mathrm{\mathit{T}}})}{\sqrt{d_{\boldsymbol{k}_i}}}\boldsymbol{v}_j\right)_{j=1}^m $$ (5)

    式中$ f $(·)为全连接操作,通过全连接层将行人i的邻居j的特征信息进行初步融合。

    行人与附近人员信息交互过程如图4所示。在阶段1,将行人i与附近人员抽象到二维坐标系中,其中黑色圆圈代表行人i,其余圆圈代表附近人员;在阶段2,在一定的空间距离内选取行人i周围邻居;在阶段3与阶段4,将行人i周围邻居的特征信息进行汇聚。

    图  4  行人与附近人员信息交互过程
    Figure  4.  Information interaction among pedestrians and nearby people

    Social Transformer网络模型在预测行人i的未来轨迹时,不仅要考虑其周围邻居的运动特征,还需要将行人i本身的运动特征作为重要考量,因此,将行人i对自身的注意力及对所有邻居的注意力进行进一步信息融合:

    $$ A_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}}\left(i\right)=f\left(f\left(\frac{\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}(\boldsymbol{q}_i\boldsymbol{k}_j^{\mathrm{\mathit{T}}})}{\sqrt{d_{\boldsymbol{k}_i}}}\boldsymbol{v}_jW_i(j)\right)_{j=1}^m+h_i\right) $$ (6)

    式中$ {W}_{i}\left(j\right) $为行人i对邻居j分配的注意力权重,通过2个归一化层进行计算。

    $$ W_i\left(j\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\boldsymbol{q}_j\boldsymbol{k}_i\boldsymbol{v}_j\right)^{\mathrm{\mathit{T}}}}{\sqrt{d_{\boldsymbol{k}_j}}}\right) $$ (7)

    最后,通过一个具有ReLU非线性的嵌入函数$ \varphi (\cdot) $的编码器优化特征[17-18],完成信息交互编码。

    $$ {A}_{\mathrm{o}\mathrm{p}\mathrm{t}}\left(i\right)=\mathrm{e}\mathrm{n}\mathrm{c}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{r}\left(\varphi \right(A\left(i\right));C) $$ (8)

    式中:$ {A}_{\mathrm{o}\mathrm{p}\mathrm{t}}\left(i\right) $为优化后的行人i对自身的注意力及对所有邻居的注意力融合结果;$ \mathrm{e}\mathrm{n}\mathrm{c}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{r}(\cdot) $为编码操作;$ C $为初始值大于0且小于1的随机平均数,随着模型不断迭代训练调整,直到模型性能达到最优。

    $ {Z}_{i} $作为编码器最终的输出,输入到解码器中。在解码器每一层,使用上个时间点的预测结果、上一层解码器的输出及上一层编码器输出的特征矩阵进行解码。预测时,本文选取最后一个时刻的特征矩阵,与高斯噪声结合后进行预测。目的是能较好地对轨迹预测中的不确定性进行建模,并可用于产生多种预测结果。最后得到行人i在未来一段时间内的轨迹预测。

    为了定量评估本文方法在进行井下多人轨迹预测时的效果,本文使用5个人员轨迹预测数据集,包括4个开放数据集及1个由数百段不同井下场景视频构成的煤矿井下人员轨迹自建数据集。

    BIWI Hotel,Crowds UCY,MOT PETS及SDD(Stanford Drone Dataset)数据集为人员轨迹预测领域较为权威的4个开放数据集,包含酒店、街道等人员密集场景,共有11 448条人员轨迹。自建数据集由896条井下人员轨迹构成,包含12座井工矿的井下变电所、井下水泵房、井下车场、胶带行人侧等场景的多人轨迹数据,能较为全面地覆盖煤矿井下行人场景。

    为衡量多人轨迹预测方法的精度,引入平均位移误差(Average Displacement Error,ADE)作为评价指标[19],该指标是指预测轨迹和真值轨迹所有点的平均欧氏距离,能够反映预测轨迹的整体准确性。

    $$ {\mathrm{ADE}} = \sum\limits_{n = 1}^F {\frac{{\left| {x_n^{{\text{gt}}} - x_n^{{\text{pred}}}} \right|}}{F}} $$ (9)

    式中:F为预测的未来坐标的数量;$ x_n^{{\text{gt}}} $为第n个坐标的基准位置;$ x_n^{{\text{pred}}} $为第n个坐标的预测位置。

    Social Transformer网络模型在具有Theano[20]的单个GPU上进行训练。为了在训练模型时充分利用数据集,本文使用留一法,从5个数据集中选择4个作为训练集,使用这4个训练集来训练模型,将剩余的1个数据集作为测试集,用于评估模型性能,重复上述步骤,确保每个数据集都作为测试集被使用1次,从而覆盖所有可能的组合。模型训练时,输入的人员历史位置坐标首先通过全连接层编码为一个大小为32(代表一次性能输入32个人员位置坐标)的向量,随后经过ReLU激活函数处理。处理输入数据时,设置丢弃比率为0.1,嵌入特征的维度为32。为了找到最佳学习率,在简化版本的模型上进行超参数搜索,范围为0.000 1~0.004,间隔为0.000 1,并选择最佳性能的学习率(0.001 5)来训练模型。本文使用Adam优化器,批量大小为16,进行300个epochs的网络训练。每个批次包含大约256个行人,在不同的时间窗口内,通过一个注意力掩码矩阵掩盖掉当前时刻之后的信息,以加速训练过程。采用的损失函数为

    $$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}=\sum _{n=1}^{F}{|{x}_{n}^{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}-{x}_{n}^{\mathrm{g}\mathrm{t}}|}^{2} $$ (10)

    在定量实验中,对于场景中的每一个人,预测其12帧(4.8 s)内的运动轨迹。将Social Transformer与LSTM,Transformer,S−GAN[21](Sequential Generative Adversarial Networks),Trajectron++,Social−STGCNN进行比较,每种方法重复运行20次,最终取平均值,结果见表1

    表  1  多人轨迹预测结果
    Table  1.  Multi-personnel trajectory prediction result
    方法 ADE 平均值
    BIWI Hotel Crowds UCY MOT PETS SDD 自建数据集
    LSTM 0.798 0.743 0.899 0.862 0.803 0.821
    Transformer 0.470 0.422 0.534 0.542 0.523 0.498
    S−GAN 0.561 0.492 0.681 0.588 0.562 0.577
    Trajectron++ 0.415 0.331 0.366 0.422 0.397 0.386
    Social−STGCNN 0.280 0.223 0.297 0.361 0.355 0.303
    Social Transformer 0.240 0.194 0.265 0.355 0.295 0.270
    下载: 导出CSV 
    | 显示表格

    表1可看出,Social Transformer在5种数据集的测试中,ADE均为最低,表现优异。相比于Transformer,Social Transformer在ADE指标上降低了46.8%,精度提升明显,由此可见,在Transformer中加入交互层能够大幅提升模型在多人轨迹预测时的精度。

    井下场所的智能视频分析对于实时性要求很高,因此对上述6种方法的训练时间及预测时间进行比较,结果如图5所示。对于相同的训练集,LSTM训练时间为89 h,预测时间为198 ms,均为最高。Trajectron++和Social−STGCNN在训练时间和预测时间上的表现较为优秀,分别为44 h、43 ms和49 h、29 ms。而Social Transformer在训练和预测2个阶段都表现出较高的效率,具有最短的训练时间和预测时间,分别为29 h、22 ms,在6种轨迹预测方法中耗时最少。

    图  5  各方法耗时对比
    Figure  5.  Comparison of time consumption for each method

    在进行人员轨迹预测时,预测序列长度及历史数据的多少是影响预测结果的重要因素,为分析这2种因素对于本文方法进行多人轨迹预测结果的影响,进行消融实验。

    将预测序列从12帧(4.8 s)更改为28帧(11.2 s),挑选来自5个数据集的1 000条人员轨迹进行实验,各方法预测结果见表2

    表  2  不同预测序列长度下多人轨迹预测结果
    Table  2.  Prediction results of multi-personnel trajectory under different prediction sequence length
    方法ADE
    预测12帧预测20帧预测28帧
    LSTM0.8211.4782.238
    Transformer0.4870.6820.940
    Social Transformer0.2740.3370.455
    下载: 导出CSV 
    | 显示表格

    表2可看出,3种方法在进行人员轨迹预测时的误差均会随着预测时间的延长而增加,其中Social Transformer的ADE最低。从预测未来12帧到预测未来28帧,LSTM的ADE提高了181%,而Transformer与Social Transformer的ADE分别提高了93%和66%。Social Transformer在预测序列长度增加后的误差增长幅度明显低于LSTM,略低于Transformer,这是由于Social Transformer在进行人员轨迹预测时,会将周围人员的运动状态及其未来轨迹一起进行交互编码,对于预测长时间的序列具有更好的稳定性。

    分别设定不同程度的历史数据缺失,挑选来自5个数据集的1 000条人员轨迹进行实验,各方法预测结果见表3

    表  3  不同历史数据下多人轨迹预测结果
    Table  3.  Prediction results of multi-personnel trajectory under different historical data
    方法ADE
    无缺失缺失3帧缺失6帧
    LSTM0.8211.1121.535
    Transformer0.4980.5730.662
    Social Transformer0.2660.3020.343
    下载: 导出CSV 
    | 显示表格

    表3可看出,缺失历史数据会提高预测结果的ADE,其中,LSTM尤其难以处理历史数据缺失问题,一旦缺失数据量过大,预测结果准确性将受到极大影响,在缺失6帧时,LSTM的ADE较无缺失情况提升了87%;相比之下,Transformer和Social Transformer在面对历史数据缺失时,其ADE的提升幅度较小,分别提高了33%,29%。

    采用井下多人场景(中央变电所、水泵房及副井口车辆转载点)的视频进行定性实验,分别使用LSTM,Transformer,Social Transformer对人员未来7帧(2.8 s)的运动轨迹进行预测,并对视频中人员预测轨迹与基准轨迹的重合程度进行主观判断,预测效果分别如图6图9所示,红色方框为人员历史轨迹,蓝色方框为人员基准轨迹,黄色方框为人员预测轨迹。

    图  6  中央变电所1人员轨迹预测效果
    Figure  6.  Prediction effect of personnel trajectory in central substation 1
    图  7  中央变电所2人员轨迹预测效果
    Figure  7.  Prediction effect of personnel trajectory in central substation 2
    图  8  水泵房人员轨迹预测效果
    Figure  8.  Prediction effect of personnel trajectory in pump house
    图  9  副井口车辆转载点人员轨迹预测效果
    Figure  9.  Prediction effect of personnel trajectory at the vehicle transfer point of auxiliary mine shaft

    图6可看出,对单人场景的人员轨迹进行预测时,Transformer与Social Transformer的预测效果基本相同,预测轨迹和基准轨迹基本无偏差,而使用LSTM处理后的预测轨迹则与基准轨迹产生少量偏差。由图7(a)、图8(a)可看出,对多人场景的人员轨迹进行预测时,采用LSTM处理后的预测轨迹与基准轨迹从前2帧开始就出现误差,且误差随着预测时间延长而增加,导致对于最终位置的预测偏差较大。由图9(a)可看出,LSTM在预测时倾向于沿用历史轨迹的运动趋势,并未考虑对向行人的运动状态,从而造成预测失准现象。由图7(b)、图8(b)、图9(b)可看出,采用Transformer预测的效果比LSTM略好,预测轨迹与基准轨迹更贴近,这是因为Transformer会更好地利用历史数据对未来做出推测,而LSTM由于梯度消失,造成预测结果失准。由图7(c)、图8(c)、图9(c)可看出,采用Social Transformer预测时,尽管每一帧的预测位置与基准位置略有偏差,但由于考虑了周围人员的运动状态,使得整体预测轨迹与基准轨迹保持近似。因此Social Transformer相较于LSTM和Transformer,在进行多人场景的人员轨迹预测时具有一定的精度提升效果。

    1) 基于Transformer模型进行改进,并将改进后的Social Transformer网络模型用于井下多人轨迹预测。采用时序建模,提取行人的时间维度运动模式,确定目标周围邻居;通过设计交互层,使用自注意力机制提取目标邻居运动状态对于目标未来轨迹的影响;将预测目标及其邻居的运动特征信息进行融合,从而更精准地预测目标未来轨迹。

    2) 实验结果表明,Social Transformer的ADE相较于Transformer降低了45.8%,且与主流轨迹预测方法LSTM,S−GAN,Trajectron++和Social−STGCNN相比分别降低了67.1%,35.9%,30.1%和10.9%,有效解决了煤矿井下多人场景中由于人员间互相影响导致预测轨迹失准的问题,能够同时预测多人轨迹,提升了预测精度。

  • 图  1   基于Social Transformer的井下多人轨迹预测方法的网络模型结构

    Figure  1.   Network model structure of underground multi-personnel trajectory prediction method based on Social Transformer

    图  2   Transformer网络模型结构

    Figure  2.   Transformer network model structure

    图  3   自注意力机制结构

    Figure  3.   Self-attention mechanism structure

    图  4   行人与附近人员信息交互过程

    Figure  4.   Information interaction among pedestrians and nearby people

    图  5   各方法耗时对比

    Figure  5.   Comparison of time consumption for each method

    图  6   中央变电所1人员轨迹预测效果

    Figure  6.   Prediction effect of personnel trajectory in central substation 1

    图  7   中央变电所2人员轨迹预测效果

    Figure  7.   Prediction effect of personnel trajectory in central substation 2

    图  8   水泵房人员轨迹预测效果

    Figure  8.   Prediction effect of personnel trajectory in pump house

    图  9   副井口车辆转载点人员轨迹预测效果

    Figure  9.   Prediction effect of personnel trajectory at the vehicle transfer point of auxiliary mine shaft

    表  1   多人轨迹预测结果

    Table  1   Multi-personnel trajectory prediction result

    方法 ADE 平均值
    BIWI Hotel Crowds UCY MOT PETS SDD 自建数据集
    LSTM 0.798 0.743 0.899 0.862 0.803 0.821
    Transformer 0.470 0.422 0.534 0.542 0.523 0.498
    S−GAN 0.561 0.492 0.681 0.588 0.562 0.577
    Trajectron++ 0.415 0.331 0.366 0.422 0.397 0.386
    Social−STGCNN 0.280 0.223 0.297 0.361 0.355 0.303
    Social Transformer 0.240 0.194 0.265 0.355 0.295 0.270
    下载: 导出CSV

    表  2   不同预测序列长度下多人轨迹预测结果

    Table  2   Prediction results of multi-personnel trajectory under different prediction sequence length

    方法ADE
    预测12帧预测20帧预测28帧
    LSTM0.8211.4782.238
    Transformer0.4870.6820.940
    Social Transformer0.2740.3370.455
    下载: 导出CSV

    表  3   不同历史数据下多人轨迹预测结果

    Table  3   Prediction results of multi-personnel trajectory under different historical data

    方法ADE
    无缺失缺失3帧缺失6帧
    LSTM0.8211.1121.535
    Transformer0.4980.5730.662
    Social Transformer0.2660.3020.343
    下载: 导出CSV
  • [1] 刘海忠. 电子围栏中心监控平台的设计与开发[D]. 武汉:华中师范大学,2012.

    LIU Haizhong. Design and development of center monitoring platform for electronic fence[D]. Wuhan:Central China Normal University,2012.

    [2]

    JEONG N Y,LIM S H,LIM E,et al. Pragmatic clinical trials for real-world evidence:concept and implementation[J]. Cardiovascular Pevention and Pharmacotherapy,2020,2(3):85-98. DOI: 10.36011/cpp.2020.2.e12

    [3]

    KLENSKE E D,ZEILINGER M N,SCHOLKOPF B,et al. Gaussian process-based predictive control for periodic error correction[J]. IEEE Transactions on Control Systems Technology,2016,24(1):110-121. DOI: 10.1109/TCST.2015.2420629

    [4]

    HUNT K J,SBARBARO D,ŻBIKOWSKI R,et al. Neural networks for control systems-a survey[J]. Automatica,1992,28(6):1083-1112. DOI: 10.1016/0005-1098(92)90053-I

    [5]

    PRESTON D B. Spectral analysis and time series[J]. Technometrics,1983,25(2):213-214. DOI: 10.1080/00401706.1983.10487866

    [6]

    AKAIKE H. Fitting autoregreesive models for prediction[M]//PARZEN E,TANABE K,KITAGAWA G. Selected papers of Hirotugu Akaike. New York:Springer-Verlag New York Inc,1998:131-135.

    [7]

    ZHANG Jianjing,LIU Hongyi,CHANG Qing,et al. Recurrent neural network for motion trajectory prediction in human-robot collaborative assembly[J]. CIRP Annals,2020,69(1):9-12. DOI: 10.1016/j.cirp.2020.04.077

    [8]

    SHERSTINSKY A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D:Nonlinear Phenomena,2020. DOI: 10.1016/j.physd.2019.132306.

    [9]

    SONG Xiao,CHEN Kai,LI Xu,et al. Pedestrian trajectory prediction based on deep convolutional LSTM network[J]. IEEE Transactions on Intelligent Transportation Systems,2020,22(6):3285-3302.

    [10]

    SALZMANN T,IVANOVIC B,CHAKRAVARTY P,et al. Trajectron++:dynamically-feasible trajectory forecasting with heterogeneous data[C]. 16th European Conference on Computer Vision,Glasgow,2020:683-700.

    [11]

    MOHAMED A,QIAN Kun,ELHOSEINY M,et al. Social-STGCNN:a social spatio-temporal graph convolutional neural network for human trajectory prediction[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle,2020:14424-14432.

    [12]

    SHANKAR V,YOUSEFI E,MANASHTY A,et al. Clinical-GAN:trajectory forecasting of clinical events using transformer and generative adversarial networks[J]. Artificial Intelligence in Medicine,2023,138. DOI: 10.1016/j.artmed.2023.102507.

    [13]

    HAN Kai,WANG Yunhe,CHEN Hanting,et al. A survey on vision transformer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(1):87-110. DOI: 10.1109/TPAMI.2022.3152247

    [14]

    GRAHAM B,EL-NOUBY A,TOUVRON H,et al. LeViT:a vision transformer in ConvNet’s clothing for faster inference[C]. IEEE/CVF International Conference on Computer Vision,Montreal,2021:12259-12269.

    [15]

    ARNAB A,DEHGHANI M,HEIGOLD G,et al. ViViT:a video vision transformer[C]. IEEE/CVF International Conference on Computer Vision,Montreal,2021:6836-6846.

    [16]

    VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need[C]. 31st Conference on Neural Information Processing Systems,Long Beach,2017:5998-6008.

    [17] 刘赟. ReLU激活函数下卷积神经网络的不同类型噪声增益研究[D]. 南京:南京邮电大学,2023.

    LIU Yun. Research on different types of noise gain in convolutional neural networks under ReLU activation function[D]. Nanjing:Nanjing University of Posts and Telecommunications,2023.

    [18] 靳晶晶,王佩. 基于卷积神经网络的图像识别算法研究[J]. 通信与信息技术,2022(2):76-81.

    JIN Jingjing,WANG Pei. Research on image recognition algorithm based on convolutional neural network[J]. Communications and Information Technology,2022(2):76-81.

    [19]

    ALAHI A,GOEL K,RAMANATHAN V,et al. Social LSTM:human trajectory prediction in crowded spaces[C]. IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:961-971.

    [20]

    BERGSTRA J,BREULEUX O,BASTIEN F,et al. Theano:a CPU and GPU math compiler in Python[C]. The 9th Python in Science Conference,2010. DOI: 10.25080/majora-92bf1922-003.

    [21]

    PESARANGHADER A,WANG Yiping,HAVAEI M. CT-SGAN:computed tomography synthesis GAN[C]// ENGELHARDT S,OKSUZ I,ZHU Dajiang,et al. Deep generative models,and data augmentation,labelling,and imperfections. Berlin:Springer-Verlag,2021:67-79.

图(9)  /  表(3)
计量
  • 文章访问数:  113
  • HTML全文浏览量:  29
  • PDF下载量:  22
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-11-25
  • 修回日期:  2024-05-24
  • 网络出版日期:  2024-06-12
  • 刊出日期:  2024-05-29

目录

/

返回文章
返回