改进Adam优化器在瓦斯涌出量预测中的应用研究

刘海东, 李星诚, 张文豪

刘海东,李星诚,张文豪. 改进Adam优化器在瓦斯涌出量预测中的应用研究[J]. 工矿自动化,2023,49(12):25-32. DOI: 10.13272/j.issn.1671-251x.2023060034
引用本文: 刘海东,李星诚,张文豪. 改进Adam优化器在瓦斯涌出量预测中的应用研究[J]. 工矿自动化,2023,49(12):25-32. DOI: 10.13272/j.issn.1671-251x.2023060034
LIU Haidong, LI Xingcheng, ZHANG Wenhao. Research on the application of improved Adam training optimizer in gas emission prediction[J]. Journal of Mine Automation,2023,49(12):25-32. DOI: 10.13272/j.issn.1671-251x.2023060034
Citation: LIU Haidong, LI Xingcheng, ZHANG Wenhao. Research on the application of improved Adam training optimizer in gas emission prediction[J]. Journal of Mine Automation,2023,49(12):25-32. DOI: 10.13272/j.issn.1671-251x.2023060034

改进Adam优化器在瓦斯涌出量预测中的应用研究

基金项目: 国家重点研发计划项目(2018YFC0808101)。
详细信息
    作者简介:

    刘海东(1972—),男,山西榆社人,高级工程师,主要从事采煤安全技术研究工作,E-mail:2091993208@qq.com

    通讯作者:

    李星诚(1999—),男,江苏南京人,博士研究生,主要研究方向为多孔介质传热传质、煤矿安全生产,E-mail:li.x@stu.pku.edu.cn

  • 中图分类号: TD712

Research on the application of improved Adam training optimizer in gas emission prediction

  • 摘要:

    目前对基于神经网络的瓦斯涌出量预测模型的研究主要集中在瓦斯涌出问题上的表现,对模型训练中优化器性质的关注与改进较少。基于神经网络的瓦斯涌出量预测模型的训练常采用Adam算法,但Adam算法的不收敛性易造成预测模型的最佳超参数丢失,导致预测效果不佳。针对上述问题,对Adam优化器进行改进,在Adam算法中引入一种随迭代更新的矩估计参数,在保证收敛速率的同时获得更强的收敛性。以山西焦煤西山煤电集团马兰矿某回采工作面为例,在相同的循环神经网络(RNN)预测模型下测试了改进的Adam优化器在瓦斯涌出量预测中的训练效率、模型收敛性与预测准确度。测试结果表明:① 当隐藏层数为2和3时,改进的Adam算法较Adam算法的运行时间分别缩短了18.83,13.72 s。当隐藏层数为2时,Adam算法达到最大迭代数但仍没有收敛,而改进的Adam算法达到了收敛。② 在不同隐藏层节点数量下,Adam算法都没有在最大迭代步长内收敛,而改进的Adam算法均达到了收敛,且CPU运行时间较Adam算法分别缩短16.17,188.83,22.15 s。改进的Adam算法预测趋势的正确性更高。③ 使用tanh函数时,改进的Adam算法的运行时间较Adam算法分别缩短了22.15,41.03 s,使用ReLU函数时,改进的Adam算法与Adam算法运行时间相差不大。④ 使用改进后的Adam算法做遍历网格搜索,得到最佳的模型超参数为{3,20,tanh},均方误差、归一化的均方误差、运行时间分别为0.078 5,0.000 101和32.59 s。改进的Adam算法给出的最优模型对于待预测范围内出现的几个低谷及峰值趋势判断均正确,在训练集上的拟合程度适当,未见明显的过拟合现象。

    Abstract:

    Currently, research on neural network-based gas emission prediction models mainly focuses on the performance of gas emission problems, with less attention and improvement on the optimizer properties in model training. The training of gas emission prediction models based on neural networks often uses the Adam algorithm. But the non-convergence of the Adam algorithm can easily lead to the loss of the best hyperparameters of the prediction model, resulting in poor prediction performance. In order to solve the above problems, the Adam optimizer is improved by introducing a moment estimation parameter that updates iteratively in the Adam algorithm, achieving stronger convergence while ensuring convergence rate. Taking a certain mining face of Malan Mine in Xishan Coal and Power Group of Shanxi Coking Coal as an example, the training efficiency, model convergence, and prediction accuracy of the improved Adam optimizer in gas emission prediction are tested under the same recurrent neural network (RNN) prediction model. The test results show the following points. ① When the number of hidden layers is 2 and 3, the improved Adam algorithm reduces the running time by 18.83 and seconds 13.72 seconds respectively compared to the Adam algorithm. When the number of hidden layers is 2, the Adam algorithm reaches its maximum iteration number but still does not converge, while the improved Adam algorithm achieves convergence. ② Under different numbers of hidden layer nodes, the Adam algorithm does not converge within the maximum iteration step, while the improved Adam algorithm achieves convergence. The CPU running time is reduced by 16.17, 188.83 and 22.15 seconds respectively compared to the Adam algorithm. The improved Adam algorithm has higher accuracy in predicting trends. ③ When using the tanh function, the improved Adam algorithm reduces the running time by 22.15 seconds and 41.03 seconds respectively compared to the Adam algorithm. When using the ReLU function, the running time of the improved Adam algorithm and the Adam algorithm is not significantly different. ④ Using the improved Adam algorithm for traversal grid search, the optimal model hyperparameters are obtained as {3,20, tanh}, with mean square error, normalized mean square error, and running time of 0.078 5, 0.000 101, and 32.59 seconds, respectively. The optimal model given by the improved Adam's algorithm correctly judges the trends of several valleys and peaks that occur within the predicted range. The fitting degree on the training set is appropriate, and there is no obvious overfitting phenomenon.

  • 瓦斯动力灾害是威胁煤矿生产的主要风险之一,准确的瓦斯涌出量预测对瓦斯灾害的防治与通风设计具有重要意义[1]。传统的瓦斯涌出量预测方法(如矿山类比法[2-3]、分源预测法[4-5]等)原理简单,符合工程实际,但预测准确性不高。随着机器学习数据驱动方法的兴起与煤矿智能化建设的推进,可充分利用煤矿的监测数据,使用数据驱动方法进行瓦斯涌出量预测[6]。主要方法包括灰色预测算法[7]、支持向量机算法[8-9]、随机森林算法[8,10]、极限学习机算法[11]、神经网络类算法等。神经网络类算法能够处理影响因素之间的非线性关系,各类神经网络及其变体用于矿井瓦斯预测时准确性和适用范围优于传统预测方法[12-16]

    瓦斯涌出量神经网络预测模型的训练常采用梯度类算法,对可微函数具有较高的计算效率。其中最常用的梯度类算法包括随机梯度下降(Stochastic Gradient Desent,SGD)算法和Adam算法。Adam算法[17]是一种引入了指数移动平均(Root Mean Square Propagation, RMSProp)的自适应梯度下降(Adaptive Gradient, AdaGrad)算法,运行速度较SGD算法更快。然而Adam算法在部分情况下不收敛或不收敛于极小值点,且可能在训练前期出现难以纠正的过拟合现象[18]。在实际应用场景下,Adam算法的不收敛性易造成模型的最佳超参数丢失,导致预测效果不佳[17]。许多研究人员对各类预测模型在瓦斯涌出问题上的表现进行了研究[14,19],但对模型训练中优化器性质的关注与改进较少。因此,为了提高瓦斯涌出量预测准确性,缩短模型响应时间,降低瓦斯预测模型部署的硬件性能需求,本文改进了Adam优化器,在Adam算法中引入一种随迭代更新的矩估计参数,在保证收敛速率的同时获得了更强的收敛性。以山西焦煤西山煤电集团马兰矿某回采工作面为例,在相同预测模型下考察了改进的Adam优化器在瓦斯涌出量预测中的训练效率、模型收敛性与预测准确度。

    马兰矿某回采工作面位于8号煤层,属稳定可采厚煤层,煤层厚度为3.65~5.20 m,平均厚度为4.39 m,含2层不稳定夹矸,厚度分别为0.03~0.10,0.10~0.26 m,坚固性系数为1.5,煤质属焦煤。8号煤下部邻近煤层为间隔11.5~16.0 m的8下煤层,厚度为1.42~1.97 m,平均厚度为1.81 m,结构简单。走向长度为1 390 m,倾斜长度为276 m,工作面标高为783~833 m。煤层瓦斯含量为7.6 m3/t,压力为0.4 MPa,有瓦斯涌出风险。胶带巷中多处施工有本煤层瓦斯抽采孔。8号煤顶板冲刷带附近煤层变薄,地质测试中发现对瓦斯涌出有一定影响。

    该工作面共回采214 d,以天作为最小时间间隔构建数据集,按照时间序列先后将全部数据的前75%划分为训练集(161组数据),其后10%划分为验证集(21组数据),最后15%划分为预测集(32组数据)。对数据中缺失值、异常值进行填补,对每项影响因素进行无量纲化处理并线性归一至[0,1]区间内。为避免数据量级差异引起的数值误差,全部算例中均使用归一化数据。

    根据工作面的实际特点,影响瓦斯涌出量的因素共19项,包含本煤层的回采日进尺、工作面标高、煤层厚度、煤层倾角、煤体硬度、初始瓦斯含量、初始瓦斯压力、进风量、回风量、平均埋深,临近煤层的瓦斯含量、瓦斯压力、标高、煤层厚度,煤层间距、采掘点与陷落柱距离、预抽及卸压总量、温度。

    矿井瓦斯涌出影响因素多而杂,与地质条件、施工及抽采工作、热力学条件等相关[20]。不必要的高维数据在深度学习模型中可能延长运行时间并降低预测准确性,依据重要性,利用最小绝对收缩选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)对影响瓦斯涌出的因素进行筛选。通过求解最小化含L1范数正则项的损失函数,对瓦斯涌出量的多项式进行拟合。

    $$ \begin{array}{c}\underset{\boldsymbol{c}}{\mathrm{min}}\dfrac{1}{2}\displaystyle\sum _{t=1}^{T}{\left({y}_{t}-{\boldsymbol{c}}^{{\mathrm{T}} }{\boldsymbol{x}}_{t}\right)}^{2}+\lambda {\|\boldsymbol{c}\|}_{1}\end{array} $$ (1)

    式中:$ {\boldsymbol{c}} $为回归系数向量;T为数据集内的总时刻;$ {y}_{t} $为$ t $时刻的实际涌出量;$ {\boldsymbol{x}}_{t} $为$ t $时刻的特征变量向量;$ \lambda $为惩罚项系数。

    若选取较大的惩罚项系数$ \lambda $,则式(1)要求$ \boldsymbol{c} $更稀疏,以使得损失函数最小。在此过程中,影响因素的重要程度由$ \boldsymbol{c} $中元素被置零的次序决定。

    对训练集求解LASSO模型轨迹,得到回归系数随惩罚项系数$ \lambda $的变化,如图1所示。其中每条曲线代表了一项影响因素在不同$ \mathrm{\lambda } $下的回归取值,随着$ \mathrm{\lambda } $的增大,各曲线均逐渐趋近于0。这意味着在$ \mathrm{\lambda } $足够大时,$ \boldsymbol{c} $应取零向量,使式(1)中目标函数最小,这与LASSO问题的定义相符。因此在$ \mathrm{\lambda } $增大的过程中,越晚被置零的因素被认为越重要。

    图  1  瓦斯涌出变量的LASSO回归轨迹
    Figure  1.  LASSO regression trajectory of gas emission variables

    选取的$ \mathrm{\lambda } $越大,筛选得到的关键变量越少,为保证足够的特征信息及模型运算量,本文选择$ \mathrm{\lambda }= {10}^{-6} $。此时各影响因素的LASSO回归系数见表1,可见此时保留了13项因素,重要性以回风量、平均埋深、瓦斯含量、邻近煤层瓦斯含量为著。其中也存在少量与现场认知不符的结果,如瓦斯压力一般与瓦斯含量相关性强,但模型结果中瓦斯压力显得不重要,这是因为压力原始数据缺失项较多,作为数据质量不佳的因素被LASSO模型弱化。但瓦斯压力对瓦斯含量及涌出量的实际影响在埋深、预抽等相关因素中得到了一定体现。

    表  1  $ \mathrm{\lambda }={10}^{-6} $时LASSO回归系数
    Table  1.  LASSO regression coefficients at $ \mathrm{\lambda }={10}^{-6} $
    影响因素 回归系数 影响因素 回归系数
    回风量 0.43 温度 0.034
    平均埋深 0.43 日进尺 0.031
    初始瓦斯含量 −0.42 进风量 −0.009
    邻近煤层瓦斯含量 0.30 煤体硬度 0
    本煤层倾角 0.22 邻近煤层标高 0
    预抽瓦斯总量 0.21 邻近煤层厚度 0
    卸压瓦斯总量 0.19 邻近煤层倾角 0
    本煤层厚度 −0.060 煤层间距 0
    工作面标高 −0.060 采掘点与陷落柱距离 0
    初始瓦斯压力 0.039
    下载: 导出CSV 
    | 显示表格

    循环神经网络(Recurrent Neural Network,RNN)在传统的前馈神经网络中引入了循环结构,是将神经网络按时间递归执行的衍生。RNN的基本原理如图2所示,每个隐藏层节点代表1个前馈神经网络,其不仅接收当前时刻的输入,还接收先前时刻的隐藏层参数。RNN在处理时序数据时具备记忆功能,能够在一定程度上捕捉到序列数据的长期依赖关系。因此它可以表现出时间上的动态行为,具有处理时间序列特征数据的能力。

    图  2  RNN原理
    Figure  2.  RNN principle

    RNN模型原理为

    $$ \begin{array}{c}{\boldsymbol{h}}_{{\mathrm{t}}}={\sigma }_{{\mathrm{h}}}\left({\boldsymbol{w}}_{{\mathrm{ih}}}^{{\mathrm{T}} }{\boldsymbol{x}}_{{{t}}}+{\boldsymbol{b}}_{{\mathrm{ih}}}+{\boldsymbol{w}}_{{\mathrm{hh}}}^{{\mathrm{T}} }{\boldsymbol{h}}_{t-1}+{\boldsymbol{b}}_{{\mathrm{hh}}}\right)\end{array} $$ (2)
    $$ \begin{array}{c}{\hat{y}}_{t}={\sigma }_{{\mathrm{y}}}\left({\boldsymbol{w}}_{{\mathrm{iy}}}^{{\mathrm{T}} }{\boldsymbol{h}}_{t}+{\boldsymbol{b}}_{{\mathrm{iy}}}\right)\end{array} $$ (3)

    式中:$ {\boldsymbol{h}}_{t} $为$ t $时刻的隐藏层向量;$ {\sigma }_{{\mathrm{h}}},{\sigma }_{{\mathrm{y}}} $为非线性的激活函数;$ {\boldsymbol{w}}_{{\mathrm{ih}}},{\boldsymbol{b}}_{{\mathrm{ih}}},{\boldsymbol{w}}_{{\mathrm{hh}}},{\boldsymbol{b}}_{{\mathrm{hh}}},{\boldsymbol{w}}_{{\mathrm{iy}}},{\boldsymbol{b}}_{{\mathrm{iy}}} $为模型的参数张量;$ {\hat{y}}_{t} $为$ t $时刻模型输出的预测结果。

    本文选用预测结果在验证集上的均方误差(Mean-Square Error,MSE)作为RNN模型的损失函数:

    $$ \begin{array}{c}L=\dfrac{1}{{N}_{\mathrm{v}}}\displaystyle\sum _{k=1}^{{N}_{\mathrm{v}}}{\left({y}_{k}-{\hat {y}}_{k}\right)}^{2}\end{array} $$ (4)

    式中:$ N_{\rm{v}} $为验证集中样本总个数;k为验证集中样本个数;$ {y}_{k}\mathrm{为}\mathrm{验}\mathrm{证}\mathrm{集}\mathrm{中} $瓦斯平均涌出量;$\hat y _k$为第k个样本的涌出量预测值。

    为了判断RNN模型预测趋势,引入归一化的均方误差(Normalized Mean Square Error,NMSE)。预测趋势的正确性通过比较预测段各极值点间斜率的正负,按照正负匹配率的3等分点将结果区分为“正确”“基本正确”“不正确”。

    $$ \varepsilon=\frac{1}{N_{\text{v}}}\sum\limits_{k=1}^{N_{\text{v}}}\frac{L\left(y_t,\hat{y}_t\right)}{V\left(y_t\right)} $$ (5)

    式中:$ \varepsilon $为归一化的均方误差;V为验证集上瓦斯涌出量的方差。

    Adam算法兼具自适应学习率与指数移动平均传播算法[17]的优势,在一些领域中较SGD算法具有更好的工作性能[22]。但Adam算法的学习率主要受二阶动量矩控制,在迭代过程中并非单调递减,导致其在部分情况下不收敛或不收敛于极小值点。本文用一种随迭代变化的矩估计参数$ {\beta }_{1,i},{\beta }_{2,i} $对Adam算法进行改进。

    $$ \left\{ \begin{array}{l} {\beta }_{1,i}={\mu \beta }_{1,i-1} \\ {\beta }_{2,i}=1-\dfrac{1}{i} \end{array} \right. $$ (6)

    式中:$ i $为迭代步数;$ \mu $为矩估计参数的衰减系数。

    $ {\beta }_{1,i} $随着迭代递减,进而一阶矩和二阶矩在迭代更新时能够获得更强的收敛性。

    $$ \begin{array}{c}{\boldsymbol{m}}_{i}={\beta }_{1,i}{\boldsymbol{m}}_{i-1}+\left(1-{\beta }_{1,i}\right){\boldsymbol{g}}_{i}\end{array} $$ (7)
    $$ \begin{array}{c}{\boldsymbol{v}}_{i}={\beta }_{2,i}{\boldsymbol{v}}_{i-1}+\left(1-{\beta }_{2,i}\right){\boldsymbol{g}}_{i}^{2}\end{array} $$ (8)

    式中:mi为梯度的一阶矩向量(即梯度的均值);gi为损失函数的梯度;vi为二阶矩向量(即梯度未中心化的方差)。

    迭代步数为$ n $时的优化残差为

    $$ \begin{array}{c}{R}_{n}=\displaystyle{}\sum\limits _{i=1}^{n}\left[{L}_{i}\left({\boldsymbol{\theta }}_{i}\right)-{L}_{i}\left({\boldsymbol{\theta }}^{*}\right)\right]\end{array} $$ (9)

    式中:Li为迭代第$ i $步时的损失函数;$ {{\boldsymbol{\theta}} _i} $为预测模型的参数向量;$ {{\boldsymbol{\theta}} ^*} $为使损失函数最小的理论参数值。

    改进的Adam算法存在残差上界[17],即

    $$ \begin{split} {R}_{n}\leqslant &\left(\dfrac{{D}_{\infty }^{2}}{2\alpha \left(1-{\beta }_{\mathrm{1,0}}\right)}+\dfrac{2\xi }{{\left(1-{\beta }_{\mathrm{1,0}}\right)}^{3}}\right)\displaystyle\sum _{j=1}^{d}{\|{{\boldsymbol{g}}}_{1:n,j}\|}_{2}+\\ &\dfrac{{\beta }_{1}{D}_{\infty }^{2}{G}_{\infty }}{{\left(1-{\beta }_{1}\right)}^{2}{\left(1-\mu \right)}^{2}} \end{split} $$ (10)

    式中:$ {D}_{\mathrm{\infty }},j $分别为参数空间的直径和维数;$ \alpha $为初始学习率;$ \xi $为有限的常数,$\xi > 0 $;d为总维数;$ {\boldsymbol{g}}_{1:{n}}= [{\boldsymbol{g}}_{1}, {\boldsymbol{g}}_{2},\cdots ,{\boldsymbol{g}}_{n}] $为梯度序列连接成的矩阵;$ {G}_{\mathrm{\infty }} $为$ {\|\nabla {L}_{i}\left(\boldsymbol{\theta }_i \right)\|}_{\mathrm{\infty }} $的一个上界。

    从而改进的Adam优化器的收敛速度$ \dfrac{R_n}{n}\leqslant O\left(\dfrac{1}{\sqrt{n}}\right) $,说明了该算法是收敛的,其中O为描述函数数量级的渐近上界。

    对Adam算法与本文中改进的Adam算法在不同隐藏层数量、隐藏层节点数量、激活函数下的预测表现进行测试。RNN模型与Adam算法在Pytorch框架下实现,改进的Adam算法使用Python 3.7实现。全部模型所用计算机硬件为Intel(R) Core(TM) i5−9300H @2.40 GHz CPU,内存大小为16 GiB。

    一般而言,隐藏层数量越多,神经网络的数据拟合能力越强,但过多的隐藏层数量大幅增加了模型运算量,且易引发过拟合。当激活函数$ \sigma =\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{ }\mathrm{h} $,隐藏层节点数为20,隐藏层数分别为1,2,3时,Adam算法与改进的Adam算法的预测结果如图3所示,模型性能表现见表2

    图  3  不同隐藏层数下Adam算法与改进的Adam算法的训练及预测结果
    Figure  3.  Training and prediction results of Adam algorithm and improved Adam algorithm under different numbers of hidden layers
    表  2  不同隐藏层数下运行结果比较
    Table  2.  Comparison of results under different hidden layers
    算法隐藏层数MSENMSE趋势正确性CPU运行时间/s
    Adam10.224 70.000 282正确29.11
    20.174 10.000 236不正确52.69
    30.287 30.000 414基本正确51.31
    改进的Adam10.218 60.000 257正确29.72
    20.080 40.000 094正确33.86
    30.28 520.000 101基本正确37.59
    下载: 导出CSV 
    | 显示表格

    图3表2可看出,当隐藏层数为1时,Adam算法和改进的Adam算法的表现几乎一致。随着隐藏层数的增加,CPU运行时间显著增加,当隐藏层数为2和3时,改进的Adam算法较Adam算法的运行时间分别缩短了18.83,13.72 s。程序运行时发现,当隐藏层数为2时,Adam算法达到最大迭代数但仍没有收敛,而改进的Adam算法达到了收敛。在结果收敛时,2种算法预测误差相近,Adam算法未收敛时的预测误差高于改进的Adam算法。当隐藏层数为3时,模型表现出了一些过拟合的倾向,在预测集上的误差开始上升,趋势正确性也有所下降。

    隐藏层中使用的节点(或称神经元)数量与结果有较大的联系,过少的神经元将导致欠拟合,而过多的神经元会导致过拟合。训练集中包含的有限信息量不足以训练隐藏层中的所有节点,会无谓地增加训练时间并降低泛化性能。当模型拥有2个隐藏层,激活函数$ \sigma =\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\mathrm{} $,每层内节点数分别为15,20,25时,模型预测结果如图4所示,模型性能表现见表3

    图  4  不同隐藏层节点数下Adam算法与改进的Adam算法的训练及预测结果
    Figure  4.  Training and prediction results of Adam algorithm and improved Adam algorithm under the number of nodes of different hidden layers
    表  3  不同隐藏层节点数下运行结果比较
    Table  3.  Comparison of results with different number of hidden layer nodes
    算法 隐藏层节点数 MSE NMSE 趋势正确性 CPU运行时间/s
    Adam 15 0.156 0 0.000 201 基本正确 55.51
    20 0.174 1 0.000 236 不正确 52.69
    25 1.2330 0.002 250 基本正确 53.53
    改进的
    Adam
    15 0.507 6 0.000 339 正确 39.34
    20 0.080 4 0.000 094 正确 33.86
    25 0.092 0 0.000 105 基本正确 31.38
    下载: 导出CSV 
    | 显示表格

    图4表3可看出,在3种隐藏层节点数下,Adam算法都没有在最大迭代步长内收敛,而改进的Adam算法均达到了收敛,且CPU运行时间较Adam算法分别缩短了16.17,188.83,22.15 s。当隐藏层节点数为15时,用改进的Adam算法预测时的NMSE超过Adam算法,其余情况下用改进的Adam算法预测时的NMSE显著小于Adam算法,且改进的Adam算法预测趋势的正确性更高。当每层内节点数为20时,改进后的模型在190~200 d预测段内2处大梯度波动得到了较为有效的捕捉,在总体数据量较小的情况下仍得到了比较理想的泛化性能。随着层内节点数的增大,均方误差有所下降,但预测趋势的正确性降低,对大梯度位置变化趋势的捕捉不够灵敏。

    神经网络中的激活函数是模型非线性的主要来源,与输出结果的联系较为紧密,激活函数的选择往往取决于具体问题。分别使用tanh与ReLU函数作为激活函数考察模型性能,在验证集上的预测结果如图5所示,其中图例格式为{隐藏层数,隐藏层节点数,激活函数}。在不同激活函数下运行结果见表4

    图  5  不同激活函数下Adam算法与改进的Adam算法的训练及预测结果
    Figure  5.  Training and prediction results of Adam algorithm and improved Adam algorithm under different activation functions
    表  4  不同激活函数下运行结果比较
    Table  4.  Comparison of results under different activation functions
    算法 激活
    函数
    层数与
    节点数
    MSE NMSE 趋势正确性 CPU运行
    时间/s
    Adam tanh 2, 25 1.233 0 0.002 30 基本正确 53.53
    3, 15 0.388 3 0.000 42 正确 79.19
    ReLU 2, 25 0.164 7 0.000 22 不正确 54.23
    3, 15 0.131 9 0.000 18 基本正确 86.89
    改进的Adam tanh 2, 25 0.092 0 0.000 11 正确 31.38
    3, 15 0.430 8 0.000 46 基本正确 38.16
    ReLU 2, 25 0.174 9 0.000 20 基本正确 58.18
    3, 15 0.142 2 0.000 19 不正确 92.02
    下载: 导出CSV 
    | 显示表格

    图5表4可看出,使用ReLU作为激活函数时,Adam算法仅在超参数{2,25,ReLU}下达到收敛,ReLU函数已经几乎失去了对趋势的判断能力,同时还需要较长的训练时间。使用tanh作为激活函数时模型性能较好。改进的Adam算法运行时间较Adam算法更有优势,使用tanh函数时,改进的Adam算法运行时间较Adam算法分别缩短了22.15,41.03 s,使用ReLU函数时,改进的Adam算法与Adam算法运行时间相差不大。

    由上述算例可见,2种优化算法同时收敛时,模型的预测误差与训练用时均相近。这是由于此处使用的预测模型相同,不同的优化器理应收敛至相近的结果。

    使用Adam算法,在隐藏层数量取1,2,3,隐藏层节点数取15,20,25,激活函数取tanh,ReLU时做遍历的网格搜索,取得最佳的模型超参数为{2,20,tanh},预测结果如图4(a)所示。此时验证集上MSE为0.174, NMSE仅为0.000 236,CPU运行时间为52.69 s。使用改进后的Adam算法,做同样的遍历网格搜索,得到最佳的模型超参数为{3,20,tanh},预测结果如图6所示。此时验证集上MSE、NMSE、运行时间分别为0.078 5,0.000 101,32.59 s。可见改进的Adam算法得到的最佳模型预测精度高于Adam算法。

    图  6  最优参数下的模型预测结果
    Figure  6.  Model prediction results under optimal parameters

    在同参数下使用Adam算法训练模型,MSE、NMSE分别为0.126,0.000 414,运行时间为78.82 s。在最大迭代步数内结果未收敛,预测趋势不正确,存在过拟合现象。由于Adam算法在实际的最优参数下不收敛,使得模型错过了最佳参数,仅收敛至前述的次优参数。改进的Adam算法可通过更强的收敛性提升实际模型预测的准确度,且运行时间较Adam算法缩短了20.1 s。

    改进的Adam算法给出的最优模型对待预测范围内出现的几个低谷及峰值趋势判断均正确,在训练集上的拟合程度适当,未见明显的过拟合现象。这表明模型的泛化性能较好,具备了依据时间序列预测工作面瓦斯涌出量的能力。

    1) 运用LASSO方法筛选了影响瓦斯涌出的因素,发现待考察工作面回风量、平均埋深、瓦斯含量、邻近煤层瓦斯含量等影响较大。

    2) 以RNN为例,提出了一种改进的Adam优化器,解决了常用的Adam优化器可能不收敛的问题。在煤矿瓦斯预测中可使模型在更多超参数下达到收敛,改进的Adam算法的运行时间较Adam算法缩短了20.1 s。

    3) 改进的Adam算法的最优模型的预测精度高于Adam算法,均方误差仅为0.078 5,具有良好的泛化性能与趋势预测能力。

  • 图  1   瓦斯涌出变量的LASSO回归轨迹

    Figure  1.   LASSO regression trajectory of gas emission variables

    图  2   RNN原理

    Figure  2.   RNN principle

    图  3   不同隐藏层数下Adam算法与改进的Adam算法的训练及预测结果

    Figure  3.   Training and prediction results of Adam algorithm and improved Adam algorithm under different numbers of hidden layers

    图  4   不同隐藏层节点数下Adam算法与改进的Adam算法的训练及预测结果

    Figure  4.   Training and prediction results of Adam algorithm and improved Adam algorithm under the number of nodes of different hidden layers

    图  5   不同激活函数下Adam算法与改进的Adam算法的训练及预测结果

    Figure  5.   Training and prediction results of Adam algorithm and improved Adam algorithm under different activation functions

    图  6   最优参数下的模型预测结果

    Figure  6.   Model prediction results under optimal parameters

    表  1   $ \mathrm{\lambda }={10}^{-6} $时LASSO回归系数

    Table  1   LASSO regression coefficients at $ \mathrm{\lambda }={10}^{-6} $

    影响因素 回归系数 影响因素 回归系数
    回风量 0.43 温度 0.034
    平均埋深 0.43 日进尺 0.031
    初始瓦斯含量 −0.42 进风量 −0.009
    邻近煤层瓦斯含量 0.30 煤体硬度 0
    本煤层倾角 0.22 邻近煤层标高 0
    预抽瓦斯总量 0.21 邻近煤层厚度 0
    卸压瓦斯总量 0.19 邻近煤层倾角 0
    本煤层厚度 −0.060 煤层间距 0
    工作面标高 −0.060 采掘点与陷落柱距离 0
    初始瓦斯压力 0.039
    下载: 导出CSV

    表  2   不同隐藏层数下运行结果比较

    Table  2   Comparison of results under different hidden layers

    算法隐藏层数MSENMSE趋势正确性CPU运行时间/s
    Adam10.224 70.000 282正确29.11
    20.174 10.000 236不正确52.69
    30.287 30.000 414基本正确51.31
    改进的Adam10.218 60.000 257正确29.72
    20.080 40.000 094正确33.86
    30.28 520.000 101基本正确37.59
    下载: 导出CSV

    表  3   不同隐藏层节点数下运行结果比较

    Table  3   Comparison of results with different number of hidden layer nodes

    算法 隐藏层节点数 MSE NMSE 趋势正确性 CPU运行时间/s
    Adam 15 0.156 0 0.000 201 基本正确 55.51
    20 0.174 1 0.000 236 不正确 52.69
    25 1.2330 0.002 250 基本正确 53.53
    改进的
    Adam
    15 0.507 6 0.000 339 正确 39.34
    20 0.080 4 0.000 094 正确 33.86
    25 0.092 0 0.000 105 基本正确 31.38
    下载: 导出CSV

    表  4   不同激活函数下运行结果比较

    Table  4   Comparison of results under different activation functions

    算法 激活
    函数
    层数与
    节点数
    MSE NMSE 趋势正确性 CPU运行
    时间/s
    Adam tanh 2, 25 1.233 0 0.002 30 基本正确 53.53
    3, 15 0.388 3 0.000 42 正确 79.19
    ReLU 2, 25 0.164 7 0.000 22 不正确 54.23
    3, 15 0.131 9 0.000 18 基本正确 86.89
    改进的Adam tanh 2, 25 0.092 0 0.000 11 正确 31.38
    3, 15 0.430 8 0.000 46 基本正确 38.16
    ReLU 2, 25 0.174 9 0.000 20 基本正确 58.18
    3, 15 0.142 2 0.000 19 不正确 92.02
    下载: 导出CSV
  • [1] 景国勋,刘孟霞. 2015—2019年我国煤矿瓦斯事故统计与规律分析[J]. 安全与环境学报,2022,22(3):1680-1686.

    JING Guoxun,LIU Mengxia. Statistics and analysis of coal mine gas accidents in China from 2015 to 2019[J]. Journal of Safety and Environment,2022,22(3):1680-1686.

    [2] 宁超,王婷婷. 瓦斯地质与瓦斯防治进展[M]. 北京:煤炭工业出版社,2007.

    NING Chao,WANG Tingting. Advances in gas geology and gas prevention and control[M]. Beijing:China Coal Industry Publishing House,2007.

    [3] 高金升,高娓娓. 新建矿井的瓦斯涌出量预测地质方法及其应用[J]. 煤,2009(8):21-24,40.

    GAO Jinsheng,GAO Weiwei. Application of gas emission geological prediction method of new mine[J]. Coal,2009(8):21-24,40.

    [4] 谢建林,张爱绒,孙晓元. 基于分源预测法的瓦斯抽放关键参数研究[J]. 太原理工大学学报,2013,44(2):213-217.

    XIE Jianlin,ZHANG Airong,SUN Xiaoyuan. The study of gas drainage key parameters based on different-source forecast method[J]. Journal of Taiyuan University of Technology,2013,44(2):213-217.

    [5] 申凯. 分源预测法在大型矿井瓦斯涌出量预测中的应用[J]. 能源技术与管理,2018,43(3):1-4.

    SHEN Kai. Application of different-source forecast method to gas emission prediction in large scale mines[J]. Energy Technology and Management,2018,43(3):1-4.

    [6]

    ALI D,FRIMPONG S. Artificial intelligence,machine learning and process automation:existing knowledge frontier and way forward for mining sector[J]. Artificial Intelligence Review,2020,53:6025-6042. DOI: 10.1007/s10462-020-09841-6

    [7]

    ZENG Jun,LI Qinsheng. Research on prediction accuracy of coal mine gas emission based on grey prediction model[J]. Processes,2021,9. DOI: 10.3390/pr9071147.

    [8] 成小雨,周爱桃,郭焱振,等. 基于随机森林与支持向量机的回采工作面瓦斯涌出量预测方法[J]. 煤矿安全,2022,53(10):205-211.

    CHENG Xiaoyu,ZHOU Aitao,GUO Yanzhen,et al. Prediction method of gas emission based on random forest and support vector machine[J]. Safety in Coal Mines,2022,53(10):205-211.

    [9]

    ZHAO Xiaohu,WANG Gang,TAN Dejian,et al. On-line least squares support vector machine algorithm in gas prediction[J]. Mining Science and Technology (China),2009,19(2):194-198. DOI: 10.1016/S1674-5264(09)60037-5

    [10] 汪明,王建军. 基于随机森林的回采工作面瓦斯涌出量预测模型[J]. 煤矿安全,2012,43(8):182-185.

    WANG Ming,WANG Jianjun. Gas emission prediction model of stope based on random forests[J]. Safety in Coal Mines,2012,43(8):182-185.

    [11] 田虎军,胡新社,贾世有,等. 基于极限学习机的煤矿瓦斯涌出量预测研究[J]. 能源技术与管理,2021,46(1):190-192.

    TIAN Hujun,HU Xinshe,JIA Shiyou,et al. Prediction model of gas emission based on extreme learning machine(ELM)[J]. Energy Technology and Management,2021,46(1):190-192.

    [12] 黄凯波,朱权洁,张尔辉. 基于灰色理论与BP神经网络瓦斯涌出量预测研究[J]. 华北科技学院学报,2020,17(2):16-22.

    HUANG Kaibo,ZHU Quanjie,ZHANG Erhui. Based on grey theory and BP neural network gas emission prediction research[J]. Journal of North China Institute of Science and Technology,2020,17(2):16-22.

    [13]

    JIA Pengtao,LIU Hangduo,WANG Sujian,et al. Research on a mine gas concentration forecasting model based on a GRU network[J]. IEEE Access,2020,8:38023-38031. DOI: 10.1109/ACCESS.2020.2975257

    [14] 刘超,张爱琳,李树刚,等. 基于Pearson特征选择的LSTM工作面瓦斯浓度预测模型及应用[J/OL]. 煤炭科学技术:1-9[2023-11-29]. https://doi.org/10.13199/j.cnki.cst.2022-1618.

    LIU Chao,ZHANG Ailin,LI Shugang,et al. LSTM-Pearson gas concentration prediction model feature selection and its application[J/OL]. Coal Science and Technology:1-9[2023-11-29]. https://doi.org/10.13199/j.cnki.cst.2022-1618.

    [15] 马晟翔,李希建. 改进的BP神经网络煤矿瓦斯涌出量预测模型[J]. 矿业研究与开发,2019,39(10):138-142.

    MA Shengxiang,LI Xijian. Study on prediction model of coal mine gas emission by improved BP neural network[J]. Mining Research and Development,2019,39(10):138-142.

    [16] 徐刚,王磊,金洪伟,等. 因子分析法与BP神经网络耦合模型对回采工作面瓦斯涌出量预测[J]. 西安科技大学学报,2019,39(6):965-971.

    XU Gang,WANG Lei,JIN Hongwei,et al. Gas emission prediction in mining face by factor analysis and BP neural network coupling model[J]. Journal of Xi'an University of Science and Technology,2019,39(6):965-971.

    [17]

    REDDI S J,KALE S S,KUMAR S. On the convergence of Adam and beyond[EB/OL]. [2023-02-20]. https://arxiv.org/abs/1904.09237.

    [18]

    WILSON A C,ROELOFS R,STERN M,et al. The marginal value of adaptive gradient methods in machine learning[EB/OL]. [2023-02-20]. https://arxiv.org/abs/1705.08292.

    [19] 付华,付昱,赵俊程,等. 基于KPCA−ARIMA算法的瓦斯涌出量预测[J]. 辽宁工程技术大学学报(自然科学版),2022,41(5):406-412.

    FU Hua,FU Yu,ZHAO Juncheng et al. Prediction of gas emission based on KPCA-ARIMA algorithm[J]. Journal of Liaoning Technical University(Natural Science),2022,41(5):406-412.

    [20] 王洪胜,吴兵,雷柏伟. 综放工作面瓦斯积聚影响因素模拟研究[J]. 煤矿安全,2018,49(3):151-154,159.

    WANG Hongsheng,WU Bing,LEI Baiwei. Numerical simulation study on influence factors of gas accumulation at fully mechanized caving face[J]. Safety in Coal Mines,2018,49(3):151-154,159.

    [21]

    KINGMA D P,BA J. Adam:a method for stochastic optimization[J]. Computer Science,2014. DOI: 10.48550/arXiv.1412.6980.

  • 期刊类型引用(6)

    1. 王瑞,宋琦,刘文慧,摆玉龙. 基于变分模态分解和改进频率增强分解变压器的有色金属价格预测. 西北师范大学学报(自然科学版). 2025(01): 51-60 . 百度学术
    2. 肖国亮,杨博,牛勇. 基于Stacking集成模型的顺层钻孔预抽煤层瓦斯涌出量预测. 煤矿现代化. 2025(04): 153-156 . 百度学术
    3. 梁旭,王玲,赵书涵. 基于残差神经网络的鸡蛋分类识别研究. 河南农业大学学报. 2024(03): 456-466 . 百度学术
    4. 李常青. 基于矿山物联网的瓦斯涌出预测模型分析. 自动化应用. 2024(14): 277-279 . 百度学术
    5. 宋世伟,张雪,张喜超,景媛媛. 基于深度神经网络的回采工作面瓦斯涌出量预测. 现代工业经济和信息化. 2024(09): 115-116+119 . 百度学术
    6. 刘超,侯人杰. 基于自编码器与时域卷积神经网络算法的配电网线损分析. 软件导刊. 2024(09): 63-69 . 百度学术

    其他类型引用(3)

图(6)  /  表(4)
计量
  • 文章访问数:  219
  • HTML全文浏览量:  82
  • PDF下载量:  31
  • 被引次数: 9
出版历程
  • 收稿日期:  2023-06-10
  • 修回日期:  2023-12-02
  • 网络出版日期:  2023-12-17
  • 刊出日期:  2023-11-30

目录

/

返回文章
返回