融合词汇信息的煤矿安全事故实体提取

吕惠林, 董佳瑶, 袁林, 李利

吕惠林,董佳瑶,袁林,等. 融合词汇信息的煤矿安全事故实体提取[J]. 工矿自动化,2025,51(4):131-139. DOI: 10.13272/j.issn.1671-251x.2024090039
引用本文: 吕惠林,董佳瑶,袁林,等. 融合词汇信息的煤矿安全事故实体提取[J]. 工矿自动化,2025,51(4):131-139. DOI: 10.13272/j.issn.1671-251x.2024090039
LYU Huilin, DONG Jiayao, YUAN Lin, et al. Entity extraction integrating lexical information for coal mine safety accidents[J]. Journal of Mine Automation,2025,51(4):131-139. DOI: 10.13272/j.issn.1671-251x.2024090039
Citation: LYU Huilin, DONG Jiayao, YUAN Lin, et al. Entity extraction integrating lexical information for coal mine safety accidents[J]. Journal of Mine Automation,2025,51(4):131-139. DOI: 10.13272/j.issn.1671-251x.2024090039

融合词汇信息的煤矿安全事故实体提取

基金项目: 

国家重点研发计划项目(2023YFC3009800);陕西省教育厅科学研究计划项目(23JK0152);陕西省自然科学基础研究计划项目(2024JC-YBQN-0726,2023-JC-QN-0001);陕西省秦创原“科学家+工程师”队伍建设项目(2022KXJ-38)。

详细信息
    作者简介:

    吕惠林(1982—),男,江苏连云港人,工程师,研究方向为煤矿机电与运输技术,E-mail:22449222@qq.com

    通讯作者:

    李利(1991—),男,山东枣庄人,讲师,博士,研究方向为人工智能、多模态信息融合,E-mail:lilxiansen@163.com

  • 中图分类号: TD67

Entity extraction integrating lexical information for coal mine safety accidents

  • 摘要:

    命名实体识别是构建煤矿安全事故领域知识图谱的基本任务,但中文缺乏明显的词汇边界特征,导致现有实体提取模型对词汇信息利用不充分。针对上述问题,提出了一种融合词汇信息的煤矿安全事故实体提取模型——融合词汇信息的RoBERTa−BiLSTM−CRF模型。首先,构建煤矿安全领域专业词典,采用RoBERTa获取字符特征向量,采用AC自动机算法进行字词匹配,得到字符对应的潜在词汇,采用Glove获取词汇特征向量。然后,通过自注意机制分配权重,将基于RoBERTa得到的字符特征向量和基于GloVe得到的词汇特征向量进行融合,得到包含词汇信息的融合向量。最后,将融合向量作为BiLSTM−CRF的输入,得到最优预测序列结果,实现煤矿安全事故实体提取。实验结果表明:① 融合词汇信息的RoBERTa−BiLSTM−CRF模型对煤矿安全领域12种实体提取的F1达91.63%,较RoBERTa−BiLSTM−CRF模型提高了1.63%。② 融合词汇信息的RoBERTa−BiLSTM−CRF模型在整体实体提取任务及各类实体类型的提取任务中,综合性能优于其他模型,说明模型架构设计对不同实体类型具有广泛适用性。

    Abstract:

    Named Entity Recognition (NER) serves as a foundational task in constructing knowledge graphs for coal mine safety accidents, yet the absence of explicit lexical boundaries in Chinese text has constrained the effective utilization of lexical information by existing entity extraction models. To address this challenge, a RoBERTa-BiLSTM-CRF model integrated with lexical information was proposed for entity extraction in coal mine safety accidents. Initially, a domain-specific lexicon for coal mine safety was constructed, where character-level feature vectors were obtained via RoBERTa, and potential lexical units corresponding to characters were identified through the Aho-Corasick (AC) Automation. Subsequently, lexical feature vectors were derived using GloVe embeddings. These vectors were then fused via a self-attention mechanism, which dynamically allocated weights to integrate RoBERTa-based character features and GloVe-based lexical features, yielding a composite vector enriched with lexical semantics. Finally, the fused vector was fed into a BiLSTM-CRF framework to generate optimized prediction sequences, thereby achieving accurate entity extraction in coal mine safety accidents. Experimental results demonstrated that: (1) the proposed model achieved an F1-score of 91.63%, which was 1.63 % higher than that of the RoBERTa-BiLSTM-CRF model. (2) It outperformed comparative models in both overall entity extraction tasks and across various entity categories, indicating the broad applicability of its design to diverse entity types.

  • 在实际的岩土工程中,如地下开采、隧道掘进和硐室开挖等施工活动中,岩体通常会经历多次荷载施加和卸载过程[1],岩石循环加卸载破裂会引起冲击地压、瓦斯突出和底板突水等灾害[2]。认识岩体微观结构的空间分布变化,有助于更好地理解岩体破裂过程中裂纹的扩展和分布[3-4],对于揭示致灾机理具有重要意义。随着CT等细观成像技术的不断进步,能够更深入地研究细微的尺度,从而揭示宏观结构特征演化的根本原因。然而,在实际应用中,由于采集设备成本和自然环境等因素的限制,往往难以获得高分辨率的岩石CT图像,这对岩石细观结构分析的准确性带来一定影响。为了克服这一限制,图像超分辨率重建技术应运而生。该技术旨在通过对低分辨率图像进行恢复和重建来获取高分辨率图像,可有效增强图像细节,提高图像质量[5]

    图像超分辨率重建方法可分为三大类:基于差值的方法[6]、基于重建的方法[7]和基于学习的方法[8]。前两者属于传统方法,通常面临图像整体模糊和细节丢失等问题,因此存在明显的局限性。近年来,随着深度学习的迅速崛起,深度学习方法在图像超分辨率重建方面得到广泛应用[9]。特别是基于卷积神经网络(Convolutional Neural Network,CNN)的超分辨率重建算法,不仅能够显著提高图像分辨率,在一定程度上还有助于去除图像噪声[10]。Dong Chao等[11]提出了超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN),使用3个卷积层进行图像重建,大幅提升了图像重建速度。C. Ledig等[12]首次将生成对抗网络(Generative Adversarial Network,GAN)[13]应用于图像重建,提出了超分辨率生成对抗网络(Super-Resolution Generative Adversarial Network,SRGAN),并对网络的损失函数进行了改进,使得在需要大幅度图像放大的情况下,能够生成视觉效果出色的图像。Wang Xiantao等[14]对SRGAN进行改进,提出了增强型超分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Networks,ESRGAN),进一步提升了重建图像的质量,增强了纹理信息,并提高了视觉效果。辛元雪等[15]对ESRGAN的生成网络进行改进,引入了多尺度特征融合、密集连接和注意力机制,有效提高了从低分辨率图像中学习高频信息的效率。B. Lim等[16]提出了一种增强的深度超分辨网络(Enhanced Deep Super-Resolution Network,EDSR),通过增加网络的深度和宽度以提升超分辨图像重建性能。

    然而,使用上述方法重建低质量岩石CT图像还存在以下问题:在试件内部高密度矿物质颗粒和孔裂隙的表征方面,部分网络在重建过程中会忽视这些细节,导致不能精细定量表征煤岩孔裂隙形态、分布及矿物分布。Wang Xintao等[17]提出了改进的ESRGAN−Real−ESRGAN。其引入了无批归一化的残差密集块(Residual in Residual Dense Block,RRDB)架构作为其基本构建模块,相较于ESRGAN中的普通残差块,RRDB包含多个残差块,每个残差块又包含了2个子残差块,增加了网络的容量和表征能力,提高了图像重建的质量。Real−ESRGAN更加注重重建图像的真实感和自然性,不仅能增加图像的细节和清晰度,还能保持图像的自然纹理和特征。因此,本文采用Real−ESRGAN对岩石CT图像进行超分辨率重建,对不同放大倍数下的重建效果进行分析,并运用三维可视化分析软件Avizo对重建图像进行三维重构,分析岩石内部细观结构,有助于更准确地表征砂岩的微纳米孔隙结构特征。

    在单轴抗压强度试验中,使用电液伺服压缩试验机,其最大轴向荷载为600 kN,加载速率为0.50 kN/s。通过该试验机进行岩石的抗压强度测试,得到砂岩的峰值强度、弹性模量、峰值应变等力学参数。

    为进行CT扫描,使用NanoVoxel−3000工业X射线显微镜,该设备将X光显微成像技术与三维数字重建技术结合,可有效对样品的复杂构造进行高精度三维数字成像,实现微米级别的三维数字表征,并允许对样品的物质属性进行分析,而无需损伤样品本身。CT扫描的主要参数:空间分辨率为60.63 μm,探测器为16位,感光单元尺寸为74.8 μm,探测器像素尺寸为127 μm×127 μm,灰度范围为0~65 536。

    试验岩样取自山西晋城无烟煤矿业集团有限责任公司赵庄煤矿15号煤层底板的砂岩。CT扫描系统的分辨率与样品尺寸直接相关。因此,在合理范围内尽可能减少样品尺寸,可以最大程度地提高扫描的精细程度。为实现这一目标,在本试验中,通过套孔取心、切割和打磨等工序,将砂岩加工成4个直径为20 mm、高度为30 mm的圆柱形试件。声波探测显示其中1个试件内部存在明显的初始节理,因此选择该试件进行CT扫描,其余3个试件用于砂岩抗压强度测试,并统计3个试件的峰值强度,通过计算平均值确定本批岩样的峰值强度。

    在CT扫描试验阶段,目标是追踪参考岩石在单轴压缩荷载下的变形全过程并记录全应力−应变曲线。这个变形过程可以分为4个主要阶段:初始孔隙压实阶段、弹性变形和裂隙稳定发展阶段、非稳定破裂扩展阶段、破裂后阶段。

    结合单轴压缩荷载下的全应力−应变曲线,对内部存在明显初始节理的试件进行4次不同荷载水平的CT扫描,如图1所示。

    图  1  不同荷载水平的岩石CT扫描点
    Figure  1.  Rock CT scanning points at different load levels

    试验加载前,采取措施确保岩石试件在加载时端部应力分布均匀,其中包括垫聚四氟乙烯片及涂抹硅脂。首先,对岩石试件在初始状态(对应零荷载)进行CT扫描,以获取有关其内部初始缺陷、矿物组分形态和分布等微观结构特征的信息。接着,以0.12 mm/min的加载速率进行加载试验,在轴向荷载达到目标值时,对试件进行扫描,以获取岩石内部裂隙网络的分布信息。然后,继续加载直到试件完全失稳并发生破坏。最后,对破坏后的试件进行CT扫描,试验结束。

    Real−ESRGAN由生成器和判别器2个部分组成。生成器用于对低分辨率图像进行超分辨率重建,而判别器则用于判断输入的图像是否为真实图像,通过不断训练增强网络的重建能力。Real−ESRGAN是在ESRGAN的基础上发展而来,它采用高阶退化模型和Sinc滤波器构建更优秀的数据集进行训练,但其生成器与ESRGAN相同。

    本文使用经过训练的Real−ESRGAN生成器来进行岩石CT图像重建。Real−ESRGAN生成器结构如图2所示,采用改进的超分辨率残差网络(Super-Resolution Residual Network,SRResNet)[18]作为骨干网络。当CT图像输入该网络后,通过下采样压缩图像尺寸,并扩充图像通道。之后图像输入改进的SRResNet,去除所有的批量归一化(Batch Normalization,BN)层[19],增强网络性能。在改进的SRResNet中,原有的残差模块被替换为RRDB模块,融合了多级残差网络和密集连接的思想,进一步增强网络的稳定性。

    图  2  Real−ESRGAN生成器结构
    Figure  2.  Real-ESRGAN generator structure

    Real−ESRGAN的判别器采用带有光谱归一化的U−Net结构,能够对单个生成的像素进行真假判断。这种结构在确保生成的高分辨率CT图像整体真实性的同时,也特别关注图像细节的保留。

    在4组扫描试验中,本文从原始CT图像中筛选和剪切了不同位置的480像素×480像素二维切片,形成了一个包含2 430张图像的数据集。采用DIV2K数据集格式,训练集包含1 944张图像,验证集、测试集各包含243张图像。

    为得到低分辨率的岩心图像,使用OpenCV库中的resize函数,选择双三次插值法,从而降低图像的分辨率。对原始图像进行不同倍数的下采样处理,获得不同倍数的低分辨率图像,如图3所示。随着岩心图像的放大倍数增加到6倍,可明显观察到许多孔隙内部细节的丢失。

    图  3  原始图像与不同倍数低分辨率图像对比
    Figure  3.  Comparison between original image and low resolution images of different multiples

    硬件设备包括AMD Ryzen 9 3950X 16−Core处理器(主频为3.70 GHz、内存为32 GiB)及NVIDIA GeForce RTX 3080显卡。使用PyTorch框架构建Real−ESRGAN模型,并在训练期间采用Adam优化器。学习率设定为0.000 1,同时分别设置一阶动量项为0.9、二阶动量项为0.999。训练迭代时,设置批次大小为8,共进行400 000次迭代训练(2 d)。每迭代5 000次,保存1次训练权重。

    超分辨率是一个涉及不确定性的问题,不同方法可能会产生不同的视觉印象和结果。通常情况下,超分辨率可靠性的评估方法有主观评估和客观评估2种。主观评估是由测试人员根据个人感受对重建图像进行打分。这种评价方法更加主观,因为评分结果会受不同个体的主观因素影响。客观评估则采用制定好的计算公式对重建图像与原始高清图像之间的误差进行评估。常见的客观评估指标包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性(Structural Similarity,SSIM)[20]

    PSNR是一种用于评估图像质量的指标,通过比较信号的最大功率与信号噪声功率来衡量图像的重建质量。通常情况下,PSNR越高,表示重建图像与原始图像之间的差异越小,噪声水平越低,图像质量越好。PSNR计算公式为[21]

    $$ P=10{{{\mathrm{lg}}}}\frac{{255}^{2}}{\dfrac{1}{mn}\displaystyle\sum _{i=0}^{m-1}\displaystyle\sum _{j=0}^{n-1}{\left[I\left(i,j\right)-K\left(i,j\right)\right]}^{2}} $$ (1)

    式中:$ P $为图像的PSNR;mn分别为图像行、列的像素数;$ I $(ij)为原始图像的第i行、第j列像素值;$ K $(ij)为重建的高分辨率图像的第i行、第j列像素值。

    SSIM是一种通过比较图像的亮度、对比度及结构信息来评估2幅图像相似程度的指标,取值范围为0~1。当2幅图像的SSIM接近1时,表示它们的结构和内容非常相似,即重建图像与原始图像非常接近,图像质量好。SSIM计算公式为[22]

    $$ M\left(a,b\right)=\frac{\left(2{\mu }_{a}{\mu }_{b}+{c}_{1}\right)\left(2{\sigma }_{ab}+{c}_{2}\right)}{\left({\mu }_{a}^{2}{\mu }_{b}^{2}+{c}_{1}\right)\left({\sigma }_{a}^{2}{\sigma }_{b}^{2}+{c}_{2}\right)} $$ (2)

    式中:$ M\left(a,b\right) $为图像$ a $和$ b $的SSIM;$ {\mu }_{a},{\mu }_{b} $分别为图像$ a,b $灰度的平均值;$ {c}_{1} $和$ {c}_{2} $为用来维持稳定的常数,$ {c}_{1}={\left({k}_{1}L\right)}^{2} $,$ {c}_{2}={\left({k}_{2}L\right)}^{2} $,$ {k}_{1}=0.01 $,$ {k}_{2}=0.03 $,L为像素;$ {\sigma }_{ab} $为图像$ a $和$ b $灰度协方差;$ {\sigma }_{a},{\sigma }_{b} $分别为图像$ a,b $灰度方差。

    本试验的主要目标是对岩石CT低分辨率图像进行2倍、4倍和6倍的超分辨率重建。为验证Real−ESRGAN算法的有效性,将其与SRCNN算法、SRGAN算法、EDSR算法、ESRGAN算法进行比较。

    从4组CT扫描试验中选择15张图像作为测试集Z1,以验证训练后的图像超分辨率重建算法的可靠性。对Z1进行2倍、4倍、6倍的超分辨率重建后,对各种图像超分辨率重建算法的客观评估结果见表1表2。可以发现,各算法重建图像PSNR和SSIM随着放大倍数的增加逐渐减小。Real−ESRGAN重建图像的PSNR和SSIM均优于其他算法。与PSNR相比,SSIM更能反映重建图像的结构信息和感知质量,Real−ESRGAN更注重图像细节的重建。

    表  1  不同算法超分辨率重建图像PSNR比较
    Table  1.  Comparison of PSNR of super-resolution reconstruction images with different algorithms
    放大倍数 SRCNN SRGAN EDSR ESRGAN Real−ESRGAN
    2 34.653 35.592 36.865 36.871 36.880
    4 32.452 34.429 35.735 35.736 35.742
    6 29.236 30.513 32.769 32.773 32.781
    下载: 导出CSV 
    | 显示表格
    表  2  不同算法超分辨率重建图像SSIM比较
    Table  2.  Comparison of SSIM of super-resolution reconstruction images with different algorithms
    放大倍数 SRCNN SRGAN EDSR ESRGAN Real−ESRGAN
    2 0.896 0.907 0.920 0.924 0.933
    4 0.875 0.881 0.905 0.910 0.917
    6 0.855 0.868 0.875 0.891 0.896
    下载: 导出CSV 
    | 显示表格

    为更直观地感受Real−ESRGAN算法在图像重建的视觉效果,各超分辨率重建算法在测试集Z1上进行2倍、4倍和6倍超分辨率重建的结果如图4图6所示。图中白色区域代表砂岩内部高密度矿物质颗粒,浅灰色区域代表岩样基质,深灰色及黑色区域代表内部孔(裂)隙。

    图  4  不同算法2倍超分辨率重建结果对比
    Figure  4.  Comparison of 2x super-resolution reconstruction results of different algorithms
    图  5  不同算法4倍超分辨率重建结果对比
    Figure  5.  Comparison of 4x super-resolution reconstruction results of different algorithms
    图  6  不同算法6倍超分辨率重建结果对比
    Figure  6.  Comparison of 6x super-resolution reconstruction results of different algorithms

    图4图6可观察到:① SRCNN算法重建的超分辨率图像存在一定程度的模糊,并且随着图像放大倍数的增大,模糊程度加深。特别是图6中的Image2,SRCNN无法准确重建裂隙的弯曲走向,导致视觉效果较差。② SRGAN算法的重建图像整体质量优于SRCNN。该算法基于GAN,引入内容损失,更注重原始图像的语义特征差异,从而减少图像的模糊感。③ ESRGAN算法的重建图像细节优于SRGAN和ESDR。从图4可看出,ESRGAN算法重建的白色区域和黑色区域相较于SRGAN和ESDR更加清晰,伪影较少。然而,ESRGAN在重建微小的矿物质颗粒方面存在一定的局限性。④ Real−ESRGAN算法的重建图像在视觉上比其他算法表现更出色,能够更清晰地展示砂岩内部高密度矿物质,裂隙边缘更加突出。尤其在图5的Image1和Image2中,黑色孔隙也更加清晰可见。然而,随着图像放大倍数的增加,Real−ESRGAN算法重建图像中的白色区域逐渐出现模糊现象,如图6所示。

    为验证Real−ESRGAN算法的优越性,对测试集Z1中的其余部分重建图像进行比较,如图7所示。可明显看出Real−ESRGAN重建的图像整体更清晰、更亮,裂隙的轮廓和高密度矿物质颗粒在重建图像中比原始图像更加清晰,而孔隙的分布形态与原始图像差异不大。

    图  7  不同算法2倍超分辨率单幅图像重建结果对比
    Figure  7.  Comparison of 2x super-resolution reconstruction results of a single image of different algorithms

    在本试验中,选取轴向荷载为30 kN时CT扫描得到的图像(共540张),并通过OpenCV对CT图像进行2倍、4倍和6倍的下采样,获得低分辨率图像。使用训练好的SRCNN算法、SRGAN算法、EDSR算法、ESRGAN算法、Real−ESRGAN算法对图像进行重建,分别得到轴向荷载为30 kN时的原始CT图像(1倍)和放大2倍、4倍、6倍的超分辨率图像。运用Avizo软件对每组图像进行三维重构,并按切片进行孔隙率分析,结果如图8图9所示。

    图  8  Real−ESRGAN重建图像与原始CT图像孔隙率对比
    Figure  8.  Comparison of porosity between Real-ESRGAN reconstructed images and original CT images

    图8可看出,Real−ESRGAN重建的原始CT图像(Real−ESRGAN−1x)和放大2倍图像(Real−ESRGAN−2x)的孔隙率与原始CT图像的孔隙率基本吻合,表明Real−ESRGAN重建图像在孔隙率方面与原始图像一致。然而,随着放大倍数的增加,放大6倍图像上的孔隙出现模糊。这是因为使用Real−ESRGAN算法进行高倍数的超分辨率重建时,由于细小孔隙的复杂性,难以重建这些微小的细节,导致重建图像的孔隙率低于原始CT图像。然而,从图9可看出,相对于其他算法所重建的图像,Real−ESRGAN在重建放大4倍图像(Real−ESRGAN−4x)和放大6倍图像(Real−ESRGAN−6x)时,其重建图像的孔隙率更加接近原始CT图像的孔隙率,并且Real−ESRGAN重建图像整体孔隙率走向与原始CT图像保持一致。

    图  9  不同算法重建图像与原始CT图像孔隙率对比
    Figure  9.  Comparison of porosity between reconstructed images of different algorithms and original CT images

    孔隙网络模型用来描述岩石复杂孔隙结构,通常由孔隙和喉道2个部分组成,其中喉道代表连接孔隙的细长通道[23]。通过Avizo软件获取每组图像的孔隙网络模型,并获得喉道长度分布占比,结果如图10图11所示。

    图  10  Real−ESRGAN重建图像与原始CT图像喉道长度分布占比对比
    Figure  10.  Comparison of throat length distribution ratio between Real-ESRGAN reconstructed images and original CT images
    图  11  不同算法重建图像与原始CT图像喉道长度分布占比对比
    Figure  11.  Comparison of throat length distribution ratio between reconstructed images of different algorithms and original CT images

    图10可看出,Real−ESRGAN重建1倍、2倍和4倍高分辨率图像的喉道长度分布占比趋势与原始CT图像基本一致。从图11可看出,在相同放大倍数下,Real−ESRGAN重建图像的喉道长度分布占比相比于其他算法更接近原始CT图像。

    1) Real−ESRGAN算法在2倍超分辨率重建后图像的PSNR高达36.880 dB,SSIM达0.933。随着原始图像放大倍数的增加,6倍超分辨率重建图像上的孔隙出现模糊,PSNR降至32.781 dB,SSIM为0.896。这表明Real−ESRGAN算法在超分辨率图像重建方面表现出色,但也需注意在高倍率放大情况下可能出现一定的模糊问题。

    2) 基于Real−ESRGAN算法重建图像放大倍数不超过4时,Real−ESRGAN生成的高分辨率CT图像与原始CT图像非常相似,并且能够成功重建微小的矿物质颗粒,显著提高了微纳米孔隙图像的分辨率。

    3) Real−ESRGAN重建超分辨图像的孔隙率和喉道长度分布占比与原始CT图像基本吻合,尤其是重建的原始CT图像和放大2倍的图像与原始CT图像的孔隙率吻合较好,表明Real−ESRGAN算法能够准确重建岩石内部复杂的孔隙网络结构。

  • 图  1   煤矿安全事故本体模型

    Figure  1.   Ontology model of coal mine safety accident

    图  2   融合词汇信息的实体提取模型整体框架

    Figure  2.   Overall framework of entity extraction model integrating lexical information

    图  3   字词向量匹配流程

    Figure  3.   Process of word-character vector matching

    图  4   AC自动机状态

    Figure  4.   States of AC automaton

    图  5   字词特征向量融合流程

    Figure  5.   Process of word-character feature vector fusion

    图  6   RoBERTa模型的输入向量

    Figure  6.   Input vectors for RoBERTa model

    图  7   空间位置类实体(部分)

    Figure  7.   Partial examples of spatial location entities

    图  8   不同模型训练时的F1

    Figure  8.   F1-scores during training of different models

    图  9   不同模型的预测结果

    Figure  9.   Prediction results across different models

    表  1   命名实体标注

    Table  1   Scheme of named entity annotation

    序号 实体 标签 实例 备注
    1 事故灾害 Accident 水灾事故 研究对象
    2 采煤施工 Method 掘进作业 人员操作
    3 防治措施 Prevention 顶板维护 人员操作
    4 救援善后 Rescue 抢排水 人员操作
    5 工作人员 Person 采掘工 工作人员
    6 机电设备 Facility 掘进机 机器
    7 空间位置 Place 掘进工作面 环境
    8 大气环境 Atmospheric 瓦斯 环境
    9 地质条件 Geology 煤层厚度 环境
    10 数据参数 Parameters 每班,每周 管理
    11 安全管理 Management 综合应急预案 管理
    12 组织机构 Organization 抢险救援指挥部 管理
    下载: 导出CSV

    表  2   RoBERTa−BiLSTM− CRF实体提取模型参数设置

    Table  2   Parameters for RoBERTa-BiLSTM-CRF entity extraction model

    参数 RoBERTa层 字词融合层 BiLSTM层 CRF层
    batch size 32
    句子最大长度 256
    标签的数量 12 12
    转移矩阵维度 14×14
    嵌入向量维度 1024 1024 1024 1024
    Transformer层 12
    隐藏层 768 768 128
    多头注意力机制 12 12
    词汇向量维度 100
    LSTM层数 2
    dropout 0.1 0.1 0.5
    学习率 3×10−5 3×10−5 1.5×10−3
    归一化参数 0.7
    下载: 导出CSV

    表  3   不同模型的实体提取结果

    Table  3   Entity extraction performances across different models s %

    模型 F1 精确率 召回率
    BiLSTM−CRF 70.83 71.53 70.14
    RoBERTa−Softmax 84.91 85.64 84.19
    RoBERTa−CRF 86.52 87.46 85.6
    RoBERTa−BiLSTM−CRF 90.00 91.91 88.17
    本文模型 91.63 92.38 90.89
    下载: 导出CSV

    表  4   12种实体类型提取的F1

    Table  4   F1-scores for 12 entity categories

    概念类 数量/个 F1/%
    BiLSTM−
    CRF
    RoBERTa−
    Softmax
    RoBERTa−
    CRF
    RoBERTa−
    BiLSTM−CRF
    本文
    模型
    事故灾害 524 64.50 78.82 80.53 84.16 85.69
    采煤施工 613 63.78 77.98 79.77 83.20 84.83
    防治措施 515 65.83 80.00 81.75 87.38 86.99
    救援善后 209 70.33 87.56 86.60 90.43 91.87
    工作人员 185 76.22 85.41 92.43 98.38 97.84
    机电设备 1721 76.06 84.72 93.72 94.19 95.41
    空间位置 1127 72.94 90.68 88.73 92.28 93.88
    大气环境 158 67.09 81.65 83.54 87.34 89.24
    地质条件 253 69.96 84.58 86.56 92.09 91.70
    数据参数 758 71.11 88.65 87.07 90.50 92.22
    安全管理 432 73.15 91.90 92.59 92.82 94.44
    组织机构 69 73.91 86.96 89.86 98.55 100.00
    下载: 导出CSV
  • [1] 国家能源局. 煤矿智能化标准体系建设指南 [EB/OL]. (2024-03-13)[2024-08-13]. https://zfxxgk.nea.gov.cn/2024-03/13/c_1310768359.htm.

    National Energy Administration. Guide for building the intelligent standard system of coal mine[EB/OL]. [EB/OL]. (2024-03-13)[2024-08-13]. https://zfxxgk.nea.gov.cn/2024-03/13/c_1310768359.htm.

    [2] 郭梨,高元,吴昊,等. 基于混合因果逻辑的尾矿坝事故知识图谱构建与应用[J]. 金属矿山,2025(1):233-242.

    GUO Li,GAO Yuan,WU Hao,et al. Construction and application of tailings dam accident knowledge graph based on hybrid causal logic[J]. Metal Mine,2025(1):233-242.

    [3]

    JI Shaoxiong,PAN Shirui,CAMBRIA E,et al. A survey on knowledge graphs:representation,acquisition,and applications[J]. IEEE Transactions on Neural Networks and Learning Systems,2022,33(2):494-514. DOI: 10.1109/TNNLS.2021.3070843

    [4]

    RAU L F. Extracting company names from text[C]. The Seventh IEEE Conference on Artificial Intelligence Application,Miami Beach,1991:29-32.

    [5]

    GRISHMAN R,SUNDHEIM B. Message understanding conference-6:a brief history[C]. 16th Conference on Computational Linguistics,Copenhagen,1996:466-471.

    [6] 任乐,张仰森,刘帅康. 基于深度学习的实体关系抽取研究综述[J]. 北京信息科技大学学报(自然科学版),2023,38(6):70-79,87.

    REN Le,ZHANG Yangsen,LIU Shuaikang. Review of research on entity relation extraction based on deep learning[J]. Journal of Beijing Information Science & Technology University(Science and Technology Edition),2023,38(6):70-79,87.

    [7]

    HUANG Zhiheng,XU Wei,YU Kai. Bidirectional LSTM-CRF models for sequence tagging[J]. Computer Science,2015. DOI: 10.48550/arXiv.1508.01991.

    [8] 曹卫东,徐秀丽. 基于R−BERT−CNN模型的实体关系抽取[J]. 计算机应用与软件,2023,40(4):222-229. DOI: 10.3969/j.issn.1000-386x.2023.04.036

    CAO Weidong,XU Xiuli. Entity relationship extraction based on R-BERT-CNN[J]. Computer Applications and Software,2023,40(4):222-229. DOI: 10.3969/j.issn.1000-386x.2023.04.036

    [9] 肖丹,杨春明,张晖,等. 基于多头注意力的中文电子病历命名实体识别[J]. 计算机应用与软件,2024,41(1):133-138,160. DOI: 10.3969/j.issn.1000-386x.2024.01.020

    XIAO Dan,YANG Chunming,ZHANG Hui,et al. Named entity recognition based on Multi-Head Attention in Chinese electronic medical records[J]. Computer Applications and Software,2024,41(1):133-138,160. DOI: 10.3969/j.issn.1000-386x.2024.01.020

    [10] 潘理虎,赵彭彭,龚大立,等. 煤矿事故案例命名实体识别方法研究[J]. 计算机技术与发展,2022,32(2):154-160. DOI: 10.3969/j.issn.1673-629X.2022.02.025

    PAN Lihu,ZHAO Pengpeng,GONG Dali,et al. Combined ALBERT for named entity recognition in coal mine accident cases[J]. Computer Technology and Development,2022,32(2):154-160. DOI: 10.3969/j.issn.1673-629X.2022.02.025

    [11] 王向前,李敏敏,孟祥瑞. 基于ALBERT−BiLSTM− CRF的煤矿事故案例文本命名实体识别方法[J]. 阜阳师范大学学报(自然科学版),2022,39(3):56-64.

    WANG Xiangqian,LI Minmin,MENG Xiangrui. Named entity recognition method of coal mine accident case text based on ALBERT-BiLSTM-CRF[J]. Journal of Fuyang Normal University(Natural Science),2022,39(3):56-64.

    [12] 曹现刚,吴可昕,张梦园,等. 基于BERT的煤矿装备维护知识命名实体识别研究[J]. 机床与液压,2023,51(9):103-108. DOI: 10.3969/j.issn.1001-3881.2023.09.017

    CAO Xiangang,WU Kexin,ZHANG Mengyuan,et al. Coal mine equipment maintenance knowledge named entity recognition model based on BERT[J]. Machine Tool & Hydraulics,2023,51(9):103-108. DOI: 10.3969/j.issn.1001-3881.2023.09.017

    [13] 刘飞翔,李泽荃,赵嘉良,等. 基于ERNIE−BiGRU−CRF模型的煤矿安全隐患命名实体智能识别研究[J]. 煤炭工程,2024,56(2):206-212.

    LIU Feixiang,LI Zequan,ZHAO Jialiang,et al. Intelligent recognition of named entities of coal mine safety hidden danger based on ERNIE-BiGRU-CRF model[J]. Coal Engineering,2024,56(2):206-212.

    [14] 夏江镧,李艳玲,葛凤培. 基于大语言模型的实体关系抽取综述[J/OL]. 计算机科学与探索:1-23[2024-07-22]. http://kns.cnki.net/kcms/detail/11.5602.TP.20250219.1506.010.html.

    XIA Jianglan,LI Yanling,GE Fengpei. A survey of entity relation extraction based on large language models[J/OL]. Journal of Frontiers of Computer Science and Technology:1-23[2024-07-22]. http://kns.cnki.net/kcms/detail/11.5602.TP.20250219.1506.010.html.

    [15]

    MA Shengkun,HAN Jiale,LIANG Yi,et al. Making pre-trained language models better continual few-shot relation extractors[C]. Joint International Conference on Computational Linguistics,Language Resources and Evaluation,Torino,2024:10970-10983.

    [16]

    MIAO Xin,LI Yongqi,ZHOU Shen,et al. Episodic memory retrieval from LLMs:a neuromorphic mechanism to generate commonsense counterfactuals for relation extraction[C]. Findings of the Association for Computational Linguistics,Bangkok,2024:2489-2511.

    [17]

    LUO Da,GAN Yanglei,HOU Rui,et al. Synergistic anchored contrastive pre-training for few-shot relation extraction[C]. The 38th AAAI Conference on Artificial Intelligence,Vancouver,2024:18742-18750.

    [18]

    XU Xiaolong,LI Chenbin,XIANG Haolong,et al. Attention based document-level relation extraction with none class ranking loss[C]. The 33th International Joint Conference on Artificial Intelligence,Jeju,2024:6569-6577.

    [19]

    LI Guozheng,KE Wenjun,WANG Peng,et al. Unlocking instructive in-context learning with tabular prompting for relational triple extraction[C]. Joint International Conference on Computational Linguistics,Language Resources and Evaluation,Torino,2024:17131-17143.

    [20] 刘婷,潘理虎,张素兰,等. 基于形式概念分析的采煤工作面本体构建研究[J]. 工矿自动化,2017,43(1):73-76.

    LIU Ting,PAN Lihu,ZHANG Sulan,et al. Research of ontology construction of coal mining face based on formal concept analysis[J]. Industry and Mine Automation,2017,43(1):73-76.

    [21]

    STENETORP P,PYYSALO S,TOPIC G,et al. BRAT:a web-based tool for NLP-assisted text annotation[C]. The 13th Conference of the European Chapter of the Association for Computational Linguistics,Avignon,2012:102-107.

    [22] 姜海洋,李雪菲,杨晔. 基于距离比较的AC自动机并行匹配算法[J]. 电子与信息学报,2022,44(2):581-590. DOI: 10.11999/JEIT210009

    JIANG Haiyang,LI Xuefei,YANG Ye. Distance comparison based parallel pattern matching[J]. Journal of Electronics & Information Technology,2022,44(2):581-590. DOI: 10.11999/JEIT210009

    [23] 赵鹏飞,赵春江,吴华瑞,等. 基于BERT的多特征融合农业命名实体识别[J]. 农业工程学报,2022,38(3):112-118. DOI: 10.11975/j.issn.1002-6819.2022.03.013

    ZHAO Pengfei,ZHAO Chunjiang,WU Huarui,et al. Recognition of the agricultural named entities with multi-feature fusion based on BERT[J]. Transactions of the Chinese Society of Agricultural Engineering,2022,38(3):112-118. DOI: 10.11975/j.issn.1002-6819.2022.03.013

    [24] 周燕. 基于GloVe模型和注意力机制Bi−LSTM的文本分类方法[J]. 电子测量技术,2022,45(7):42-47.

    ZHOU Yan. Text classification method based on GloVe model and attention mechanism Bi-LSTM[J]. Electronic Measurement Technology,2022,45(7):42-47.

    [25]

    DEVLIN J,CHANG Mingwei,LEE K,et al. BERT:pretraining of deep bidirectional transformers for language understanding[C]. Conference of the North American Chapter of the Association for Computational Linguistics,Minneapolis,2019. DOI: 10.48550/arXiv.1810.04805.

    [26] 李静宜,丁飞,张楠,等. 基于深度LSTM与遗传算法融合的短期交通流预测模型[J]. 无线电通信技术,2022,48(5):836-843. DOI: 10.3969/j.issn.1003-3114.2022.05.009

    LI Jingyi,DING Fei,ZHANG Nan,et al. Short-term traffic flow prediction model base on fusion of depth LSTM and genetic algorithm[J]. Radio Communications Technology,2022,48(5):836-843. DOI: 10.3969/j.issn.1003-3114.2022.05.009

  • 期刊类型引用(1)

    1. 田帅,李盛,王露曼,邱博之. 基于超分辨率重建的反无人机检测方法研究. 无线互联科技. 2024(08): 103-105 . 百度学术

    其他类型引用(4)

图(9)  /  表(4)
计量
  • 文章访问数:  30
  • HTML全文浏览量:  5
  • PDF下载量:  3
  • 被引次数: 5
出版历程
  • 收稿日期:  2024-09-10
  • 修回日期:  2025-04-06
  • 网络出版日期:  2025-03-26
  • 刊出日期:  2025-04-14

目录

/

返回文章
返回