实验研究

基于代价敏感理论的多决策树煤层底板突水预测模型

李彦民1,周晨阳2,李凤莲1

(1.太原理工大学 信息与计算机学院, 山西 晋中 030600;2.太原理工大学 大数据学院, 山西 晋中 030600)

摘要在进行煤层底板突水预测时,水害状况一般分为安全和突水2种状态,状态数据具有非平衡特点,而已有的煤层底板突水预测模型主要适用于平衡数据,对非平衡数据集预测结果常呈现“一边倒”现象,即安全状况的预测准确率明显高于突水状况的预测准确率,整体预测性能较低。针对该问题,构建了基于代价敏感理论的多决策树煤层底板突水预测模型。该模型中,每个决策树选用不同的突水影响因素作为单决策树的根节点,单决策树节点属性选择准则融合代价敏感理论及Gini指标,从而加重了对突水数据(少数类)误判的惩罚力度,提高了突水状况的预测性能;根据构建的单决策树突水预测模型得到其规则集,将所有单决策树突水预测模型规则集合并,得到多决策树突水预测模型规则集,采用多决策树突水预测模型规则集得到多个突水数据的预测结果,而后采用少数服从多数原则,基于投票法得到最终的预测结果。实验结果表明:该模型随着惩罚因子的增大,真实正类率预测结果呈现先增后减的趋势;与基于分类回归树(CART)算法的单决策树突水预测模型相比较,在数据不平衡率为2、分类错误惩罚因子取4时,该模型真实正类率可达到93.06%,真实负类率可达到97.85%,准确率为96.25%,均优于基于CART算法的突水预测模型性能;在数据不平衡率提高到6、分类错误惩罚因子取20时,2种模型的正类率均达到100%,本文模型的负类率为99.37%,准确率为99.47%,依然优于基于CART算法的突水预测模型性能。实验结果验证了本文模型的有效性。

关键词煤层底板突水预测; 突水影响因素; 非平衡数据集; 代价敏感理论; 多决策树

0 引言

在煤矿开采活动中,水害是仅次于瓦斯突出的第二大煤矿灾害[1]。我国华北煤田大多属于带压开采,由带压开采导致的煤层底板突水成为当前一种主要的突水形式。开展煤层底板突水预测研究,对降低煤矿水害事故发生、提高煤矿安全生产效率具有重要意义。

在进行煤层底板突水预测时,水害状况一般分为安全和突水2种状态,因此,煤层底板突水可被看作为二分类问题。预测结果如果将实际安全的情况误判为突水,所付出的代价是引起人们的注意,积极采取应对措施。而一旦将可能出现突水的危险情况误判为安全状态,将会直接造成煤矿企业的经济损失,甚至会有人员伤亡。在采集到的煤矿突水数据中,安全状态下的煤层水文地质信息数据远多于突水状态下的水文数据,煤矿突水数据具有非平衡数据集的特点。其中安全状态下采集的煤层水文信息数据占多数,称为多数类(或者负类)数据;突水状态下采集的水文地质信息数据占少数,称为少数类(或者正类)数据。而少数类误判所带来的损失远高于多数类误判所带来的损失。因此,如何提高突水状况时少数类数据的预测准确率是本文研究重点。

构建煤层底板突水预测模型常用的方法有基于底板突水机理的方法及基于智能信息处理的方法。基于底板突水机理的方法有尖点突变模型[2-3]、突水极限水压值法[4]、脆弱性评价模型[5]及突水系数法等。尖点突变模型主要从突变理论角度探讨煤层底板突水的机制。突水极限水压值法适合深部煤层开采的突水预测。脆弱性评价模型融合了新型煤层底板主控指标体系、GIS技术和多元信息理论,需要空间数据及属性数据等多种数据支持。突水系数法因操作简单易行而被广泛应用,并列入《煤矿防治水规定》,但在隔水层性质这一方面,该方法仅仅考虑了隔水层厚度,对于深部煤层开采时的底板突水危险性评价存在局限性和不足。

随着工业与信息化的高度融合,物联网技术开始用于煤矿生产现场突水安全监测,基于物联网采集的各种传感器数据,借助机器学习及群智能等智能信息处理方法进行煤层底板突水预测研究越来越多[6-8]。文献[8]将粒子群优化(Particle Swarm Optimization,PSO)算法用于优化支持向量机(Support Vector Machine,SVM)分类器,建立了基于PSO_SVM-Adaboost 算法的煤层底板突水预测模型。文献[9]提出了基于遗传算法的支持向量回归模型,并将其用于煤层底板突水量的预测。文献[10]采用分类回归树(Classification and Regression Tree,CART)进行煤层底板突水预测模型构建研究。文献[11]建立了基于PCA(Principal Component Analysis,主成分分析)_Fuzzy_RF(Random Forest, 随机森林) 的煤层底板突水预测模型。文献[12]建立了基于长短时记忆(Long Short Term Mermory,LSTM)神经网络的突水预测模型。因煤层底板突水数据具有非平衡特点[13],上述预测模型用于煤层底板突水预测时,预测结果常呈现“一边倒”现象,即安全状况的预测准确率明显高于突水状况的预测准确率,使得突水预测模型的整体预测性能大大降低。

鉴此,本文提出了一种基于代价敏感理论的多决策树突水预测模型。该模型中,每个决策树选用不同的突水影响因素作为单决策树的根节点,以避免单决策树由于根节点突水影响因素选择不当所导致的预测准确率偏低的缺陷。在单决策树节点属性选择准则方面,融合了代价敏感理论,从而加重了对突水数据(少数类)误判的惩罚力度,提高了突水状况的预测准确率。实验结果表明,本文所提出的突水预测模型在真实正类率、负类率及准确率等性能方面均优于单决策树突水预测模型。

1 突水影响因素分析

煤层底板突水问题是一个复杂的非线性动力学问题,一般认为矿压、地质构造、隔水层和含水层为导致煤层底板突水的主要影响因素[14-16]。其中隔水层的完整性、厚度和含水层的富水性是导致煤层底板突水最重要的因素。

含水层的富水性主要通过单位涌水量进行评判,单位涌水量越大,含水层的富水性越强,同时煤层的突水系数越大,发生突水的概率也就越大。隔水层在底板突水时能起到抑制作用,隔水层的厚度及其所在岩层岩石的力学性质(抗压、抗拉及抗剪)决定其阻水能力。

矿井所处的地质构造是导致煤层底板突水的另一个重要因素。地质构造的类型大体分为褶皱、断层和陷落柱3种,这些地质构造为地下水提供了一定的存储空间,并为地下水的流动提供了天然通道。研究表明,断层附近易发生底板突水[17]

另外,工作面长度、开采速度、开采厚度及开采深度等也是导致煤层底板突水的危险因素。本文结合实验工作面情况,确定了煤层底板突水影响因素主要包括含水层厚度、有效隔水层厚度、隔水层承受水压和埋深,同时也考虑了断层、陷落柱对隔水层的破坏。若有断层、陷落柱,且富水性强,发生突水的概率会极大增加。构建突水预测模型时,根据不同矿井的实际地质构造情况,可进行突水影响因素的调整。

2 基于代价敏感的多决策树突水预测模型构建

本文所用数据为煤矿水文地质数据,各数据对应的突水影响因素构成了属性信息;数据类别标签分为“突水”及“安全”2种状况,数据按照五折交叉验证方式被分为训练集和测试集。构建多决策树突水预测模型时,首先基于训练集进行代价敏感单决策树突水预测模型的构建,各个单决策树采用不同突水影响因素作为根节点属性信息,根据构建的单决策树突水预测模型得到其规则集,该规则集形成了各个单决策树突水预测模型,将所有单决策树突水预测模型规则集合并,得到多决策树突水预测模型规则集。对突水数据进行预测时,采用多决策树突水预测模型规则集得到多个预测结果,最后采用少数服从多数原则,基于投票法得到最终的预测结果。

2.1 基于代价敏感的单决策树突水预测模型构建

单决策树采用CART算法,并将Gini指标和代价敏感系数融合作为节点属性选择准则,以加重对突水危险状态的惩罚力度,提高突水状况下突水预测模型的预测准确率。

本文在构建基于代价敏感理论的单决策树突水预测模型时,分裂属性选择准则[18]AS(Attribute Selection)定义如下:

AS=(2Gini(D)-1)C(ak)

(1)

式中:Gini(D) 表示训练数据集D根据所选突水因素ak分裂后的Gini值,其值越小,突水预测结果越精确,ak隶属于属性集A={a1a2,…,an},A共包括n个突水影响因素; C(ak)表示突水数据集D根据某一突水因素ak分裂后得到的误分类代价。

C(ak)[18-19]计算式为

C(ak)=pPCP+pNCN

(2)

式中:pP,pN分别为在分裂节点处数据被判定为少数类和多数类的概率,P为突水状态,N为安全状态;CPCN分别为把节点的样本判定为少数类和多数类的代价。

CP=FPCFP+TPCTP

(3)

CN=TNCTN+FNCFN

(4)

式中:FP为把实际安全数据误判为“突水”的样本数量;CFP为把实际安全数据错误预测为“突水”的代价参数;TP为把实际突水数据正确预测为“突水”的样本数量;CTP为把实际突水数据正确预测为“突水”的代价参数;TN为把实际安全数据正确地预测为“安全”的样本数量;CTN为把实际安全数据正确预测为“安全”的代价参数,本文取CTN=CTP=0;FN为把实际突水数据误判为“安全”的样本数量;CFN 为把实际突水数据错误预测为“安全”的代价参数,本文取CFN>CFP

基于代价敏感理论的单决策树突水预测模型构建流程如下:

输入:训练集中的煤矿水文地质数据D和属性集A

输出:突水预测模型规则集。

(1) 初始化:创建根节点root;将所有属性作为候选属性A′集合。

(2) 生成节点node。

(3) 如果训练集为空,在返回节点标记为Failure。

(4) 如果D中所有样本都属于同一个类别,则以该类别标记节点node上所有的数据。

(5) 如果候选属性A′为空或者D中样本在A′上取值相同,则将节点node标记为叶节点,类别按照多数样本的类别标记,训练结束。

(6) 根据式(1)计算所有候选属性A′的AS值,将最小AS值对应的突水影响因素作为当前节点分裂属性,并将该属性从候选属性A′中去除。

(7) 对数据集中的数据依据属性进行分裂,得到子节点;若子节点中所有数据属于同一类,则该子节点变为叶节点,循环结束,否则跳至步骤(6)。

(8) 根据建立的决策树得到突水预测模型规则集。

2.2 多决策树突水预测模型构建

在单决策树突水预测模型构建过程中,传统根节点的选择采用的是信息增益最大化的方式,这种方式可能导致所选择的根节点属性并不理想,从而影响最终的突水预测结果。为了减少由于单决策树根节点属性信息选择不当造成的误判概率,本文进一步给出了采用每一个突水影响因素作为根节点建立多决策树突水预测模型的构建思路,最终的突水预测结果通过对多决策树中包含的n个单决策树结果采用投票法得到,以提高突水预测模型预测性能。

基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型构建流程如图1所示。其中的训练集为采集的煤层水文地质数据,代价敏感决策树1,2,…,n分别采用煤层水文地质数据各突水影响因素作为其根节点属性,基于代价敏感单决策树突水预测模型构建流程得到单个突水预测模型,单个模型构建完成后,可以得到n个单决策树的规则集,这些规则集合并可得到最终突水预测规则集,最后采用投票法得到最终的预测结果。

图1 基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型构建流程
Fig.1 Building process of multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory and different root node information

基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型结构如图2所示,包括3个部分:突水影响因素分析、数据采集与整理,模型训练及性能测试。其中突水影响因素分析、数据采集与整理过程如下:先进行研究区域的突水影响因素分析,根据分析结果采集对应的煤田水文地质数据信息;接着对采集到的数据采用五折交叉验证方式进行模型构建及性能验证。模型训练过程如下:基于训练集数据,采用不同根节点代价敏感多决策树突水预测模型构建思路建立多决策树,根据建立的决策树提取建树规则,得到突水预测模型规则集。性能测试过程如下:对测试集中的数据采用规则集进行突水预测,对预测结果采用性能评价准则准确率、真实正类率及真实负类率进行性能评价。

图2 基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型结构
Fig.2 Structure of multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory and diferent root node information

煤矿开采时,可把工作区域的数据作为输入,采用已构建的多决策树模型进行是否有突水危险的预测,根据决策树规则集预测结果,采用投票法可得到一个结果为“突水”或者“安全”的预测输出,从而为煤矿专家提供辅助决策支持。

3 实验验证

3.1 数据采集与描述

实验煤矿位于山西省吕梁山脉的西北部,属于华北煤田体系。研究区域地层结构由老至新主要包括:古生界奥陶系中统,石炭系中统、上统,二叠系下统、中统;中生界三叠系下统、中统;新生界第三系、第四系。山西组和太原组共含煤14层,其中8号、13号煤层为奥灰水带压开采区域。依据含水层介质的不同,该煤田内主要包括奥陶系岩溶水含水层,石炭系太原组砂岩裂隙含水层,二叠系下统下石盒子组与山西组砂岩裂隙含水层,第四系、上第三系松散岩类孔隙含水岩组等。8号、13号煤层的直接充水含水层为砂岩裂隙含水层,补给条件较好。

根据该煤矿某采煤工作面的现场实际观测,本文采集多种与煤层底板突水相关的数据,经过筛选整理、反复分析,最终确定影响研究工作面的煤层底板突水因素主要有奥陶岩溶水含水层厚度、煤层底板有效隔水层厚度、隔水层承受水压和埋深。由专家对确定的煤层底板突水数据进行分析并进行突水安全状态标记,获得带标签的有效数据共计95组, 13号煤层部分有效数据见表1,其中,突水状态中的“0”表示安全,“1”表示突水。由于突水情况对应的实际生产数据较难得到,经过与突水专家讨论分析,在实际数据基础上,经过理论分析得到一部分反映突水状况的理论分析数据,用于本文的仿真实验,目的是验证模型的有效性。其中安全状态时对应的一组数据的钻孔柱状图如图3所示,其孔口标高为1 064.35 m。

突水系数法是一种经典突水预测方法,因其计算简单便捷且预测准确率较高而被广泛应用。为验证本文所提出的突水预测模型的有效性,表1同时给出了突水系数法预测结果,以进行对比。

突水系数法利用隔水层厚度和隔水层承受水压来计算单位隔水层所能承受的极限水压值,计算公式为

(5)

式中:Ts为突水系数,代表单位隔水层所能承受的极限水压值,MPa/m;H为隔水层承受水压,MPa;M为隔水层厚度,m;d为煤矿开采时矿压对底板的破坏深度, m,本文根据经验取d=10 m。

表1 13号煤层底板水文地质信息数据
Table 1 Hydro-geological information data of No.13 coal seam floor

编号含水层厚度/m隔水层厚度/m水压/MPa埋深/m突水状态Ts/(MPa·m-1)114.3075.572.587 366.9200.039242.2566.941.699248.0500.030313.3567.525.652651.3110.16946.6043.426.371657.2910.190528.3654.192.530354.2300.05765.7569.156.144707.7510.244728.4868.115.573694.8110.130 846.0049.601.680233.5800.042 936.0045.086.588836.3210.188 1023.0054.322.908415.5400.066 1142.0077.921.706261.3400.025 1236.0063.405.594656.9710.173 1312.3078.572.797390.8300.041 1442.2563.851.789223.0500.033 1518.3580.314.352542.2400.062 165.6060.563.371445.3100.067 1727.4556.192.630446.3400.057 1814.4528.114.123566.3210.228 1927.4515.015.865579.6611.171 2043.0048.501.720331.4500.045 2133.0044.065.588423.1210.164 2225.0056.322.807313.3500.061

图3 表1的一组数据对应的钻孔柱状图
Fig.3 Borehole histogram of the data set in Table 1

预测时,定义突水系数Ts<0.06 MPa/m时为不突水,0.06 MPa/m≤Ts≤0.10 MPa/m时为临界状态,Ts>0.10 MPa/m时为突水。

由表1可知,22组数据的突水状态与根据Ts值得到的突水状态一致。

3.2 突水预测模型评价指标

对于突水预测模型的性能评价,预测准确率是最常见且较为重要的评价指标。但是,在对非平衡数据集进行分类预测时,准确率不再是最权威及全面的性能指标。为了客观地反映所构建的预测模型对非平衡数据集的预测性能,本文除采用准确率之外,还考虑了真实正类率及真实负类率2个评价指标[15]

真实正类率RP:反映了少数类突水状况的预测结果准确率,其值越大,说明突水预测模型对突水状况的预测结果越精确。

(6)

真实负类率RN:反映了多数类安全状况的预测结果准确度,其值越大,说明突水预测模型对安全状况的预测结果越精确。

(7)

准确率Acc:是评价预测模型性能的总体指标,其值越大,说明突水预测模型总体预测性能越精确。

(8)

3.3 实验设计

为了证明本文模型的有效性,设计了如下2个实验:

(1) 在数据不平衡率(Imbalated Rate,IR,多数类样本个数/少数类样本个数)为2.8时,分析了代价因子CFP=1,CFN从1到1 000逐渐递增时,预测结果的变化情况,以说明不同代价参数对实验结果的影响。

(2) 在数据不平衡率IR从2逐渐增加时,比较基于Gini指标的CART单决策树模型预测性能与基于本文模型的预测性能,以说明本文所构建的突水预测模型的有效性。

所有结果为相同实验条件下采用五折交叉验证方法得到。

3.4 实验结果及分析

表2给出了代价因子CFP=1,CFN从1到1 000逐渐递增时,预测结果的变化情况。

图4给出了表2预测性能变化趋势对比。由图4可看出,CFN从1按照步距1增长至10时,RP一直保持较高的预测准确率,其中CFN为4时达到了最大值96.00%。当CFN大于10之后,RP总体呈现下降趋势,RN变化不显著,Acc由于RP的变化也呈现逐渐减小趋势。这表明代价敏感因子CFN取值也不能太大,否则补偿过度,反而导致预测性能下降。为此,在数据不平衡率IR为2.8时,本文最终选取CFN=10,以使3个指标都能达到较满意结果。此时正类率RP为92.67%,负类率RN为97.71%,总体预测准确率为96.51%。

表2 不同代价参数CFN的预测性能对比
Table 2 Prediction performance comparison of different CFN

CFNRP/%RN/%Acc/%190.67 95.63 94.44 292.67 96.46 95.56 390.67 97.29 95.71 496.00 95.21 95.40 592.67 95.63 94.92 692.67 97.29 96.19 786.00 96.46 93.97 890.67 96.25 94.92 987.33 96.04 93.97 1092.67 97.71 96.51 2092.67 96.88 95.87 3086.67 95.42 93.33 4086.00 95.83 93.49 5080.00 96.04 92.22 6088.67 97.71 95.56 7087.33 95.42 93.49 8088.33 97.08 96.19 9088.67 96.46 94.60 10087.33 97.71 95.24 20090.67 97.29 95.08 30088.00 95.83 93.81 40084.67 97.29 94.29 50088.00 97.50 95.24 60084.67 96.88 93.97 70088.67 97.71 95.56 80086.00 96.46 93.97 90086.67 97.08 94.60 1 00088.67 96.88 94.92

图4 不同代价CFN时预测性能变化趋势对比
Fig.4 Prediction performance change trend comparison of different CFN

进一步将少数类样本个数逐渐减少,负类样本个数保持不变,使数据的不平衡率增大,将本文模型预测结果与基于CART算法的突水预测模型结果相比较,表3为2种模型的预测性能对比。从表3可看出,随着不平衡率IR的增加,本文算法的RP总体优于CART算法预测结果。在数据不平衡率为6时,2种算法的RP都达到了100.00%,且本文模型RNAcc稍优于CART算法预测结果。

表3 2种模型的预测性能对比
Table 3 Prediction performance comparison of two models

IR模型CFNRP/%RN/%Acc/%2本文模型493.06 97.85 96.25CART—92.1993.5993.134本文模型991.6797.7196.50CART—90.0098.1396.506本文模型20100.0099.3799.47CART—100.0096.6397.16

4 结论

(1) 构建了基于不同根节点信息的代价敏感多决策树煤层底板突水预测模型。采用不同突水影响因素作为各个决策树的根节点属性信息,并采用基于代价敏感融合Gini指标的属性选择准则进行各单决策树煤层底板突水预测模型构建,根据建立的单决策树提取建树规则,得到单决策树突水预测模型规则集,所有单决策树规则集形成多决策树建树规则。采用多决策树突水预测模型的规则集可进行突水预测,采用投票法得到最终预测结果,对预测结果进行性能评价。

(2) 实验结果表明:采用本文构建的模型,可在保证预测准确率达到最优的同时,真实正类率及负类率也可达到较优的性能,从一定程度上解决了传统突水预测模型存在的“一边倒”现象。在数据不平衡率为2、分类错误惩罚因子取4时,模型的正类率为93.06%,负类率为97.85%,准确率为96.25%,均优于基于CART算法的突水预测模型的性能。在数据不平衡率提高到6、分类错误惩罚因子取20时,2种模型的正类率均达到100%,本文算法的负类率为99.37%,准确率为99.47%,依然优于CART突水预测模型性能。说明了本文模型的有效性。

(3) 本文模型计算复杂度偏高,下一步可在保证模型性能的前提下,研究降低模型计算复杂度的有效改进方法。

参考文献(References):

[1] 尹金柱. 煤矿防治水中的瞬变电磁法勘察实例[C]//资源 创新 绿色 发展——2016年第十四届华东六省一市地学科技论坛论文集,2016:335-341.

YIN Jinzhu. A case of transient electromagnetic method applied in mine water prevention and treatment[C]// Resource, Innovation, Green, and Development—Proceedings of the 14th Geosciences Science and Technology Forum of Six Provinces and One City in East China in 2016,2016:335-341.

[2] 王连国,宋扬,缪协兴. 基于尖点突变模型的煤层底板突水预测研究[J]. 岩石力学与工程学报,2003,22(4):573-577.

WANG Lianguo, SONG Yang, MIAO Xiexing. Study on prediction of water-inrush from coal floor based on cusp catastrophic model[J]. Chinese Journal of Rock Mechanics and Engineering, 2003, 22(4): 573-577.

[3] 韦韬,李博,王中美,等.基于尖点突变模型的煤层底板突水危险性评价[J].湖南科技大学学报(自然科学版),2020,35(1):23-29.

WEI Tao, LI Bo, WANG Zhongmei, et al.Risk assessment of water inrush from coal floor based on cusp catastrophe model [J].Journal of Hunan University of Science and Technology (Natural Science Edition),2020,35(1):23-29.

[4] 张伟杰,李术才,魏久传,等. 基于岩体极限平衡理论的煤层底板突水危险性预测[J].山东大学学报(工学版),2013,43(1):86-91.

ZHANG Weijie, LI Shucai, WEI Jiuchuan, et al. Study on water-inrush prediction of coal floor based on the limit equilibrium theory of rock mass [J]. Journal of Shandong University (Engineering Science),2013,43(1):86-91.

[5] 张婷,田勇,于超,等.煤层底板突水脆弱性预测评价系统设计与实现[J].能源与环保,2020,42(4):22-27.

ZHANG Ting, TIAN Yong, YU Chao, et al. Design and implementation of prediction and evaluation system for vulnerability of coal floor water-inrush[J]. China Energy and Environmental Protection,2020,42(4):22-27.

[6] 孟祥瑞,王军号,高召宁. 基于IoT-GIS耦合感知的煤层底板突水预测研究[J].中国安全科学学报,2013,23(2):85-91.

MENG Xiangrui, WANG Junhao, GAO Zhaoning. Reasearch on coal floor water-inrush forecasting based on coupling perception of IoT-GIS[J]. China Safety Science Journal,2013,23(2):85-91.

[7] 童柔,谢天保. 基于机器学习的煤矿突水预测方法[J]. 计算机系统应用,2019,28(12):243-247.

TONG Rou, XIE Tianbao.Prediction method of coal mine water inrush based on machine learning[J]. Computer Systems & Applications,2019,28(12):243-247.

[8] 孙雪.基于PSO_SVM-Adaboost煤层底板突水预测模型研究[D].阜新:辽宁工程技术大学,2017.

SUN Xue. The research on prediction of water inrush from coal seam floor based on PSO_SVM-Adaboost[D]. Fuxin: Liaoning Technical University, 2017.

[9] 曹庆奎,赵斐.基于遗传-支持向量回归的煤层底板突水量预测研究[J].煤炭学报,2011,36(12):2097-2101.

CAO Qingkui, ZHAO Fei. Forecast of water inrush quantity from coal floor based on genetic algorithm-support vector regression[J]. Journal of China Coal Society,2011,36(12):2097-2101.

[10] 杜春蕾,张雪英,李凤莲. 改进的CART算法在煤层底板突水预测中的应用[J]. 工矿自动化,2014,40(12):52-56.

DU Chunlei, ZHANG Xueying, LI Fenglian. Application of improved CART algorithm in prediction of water inrush from coal seam floor[J].Industry and Mine Automation,2014,40(12):52-56.

[11] 温廷新,孙雪,田洪斌,等.基于PCA_Fuzzy_RF模型的煤层底板突水预测[J]. 安全与环境学报, 2017,17(3):855-858.

WEN Tingxin, SUN Xue, TIAN Hongbin, et al.Prediction of the water inrush from the coal seam based on PCA_Fuzzy_ RF model[J]. Journal of Safety and Environment,2017,17(3):855-858.

[12] 董丽丽, 费城, 张翔,等. 基于LSTM神经网络的煤矿突水预测[J]. 煤田地质与勘探,2019,47(2):141-147.

DONG Lili, FEI Cheng, ZHANG Xiang, et al.Coal mine water inrush prediction based on LSTM neural network[J]. Coal Geology & Exploration,2019,47(2):141-147.

[13] 谢天保, 赵萌, 雷西玲. 基于非均衡样本集的煤矿突水预测模型[J]. 计算机系统应用, 2018, 27(4):124-130.

XIE Tianbao, ZHAO Meng, LEI Xiling. Coal mine water inrush prediction model based on unbalanced set of samples[J]. Computer Systems & Applications, 2018,27(4):124-130.

[14] 祁春燕,邱国庆,张海荣.底板突水预测模型的影响因素分析[J].武汉大学学报,2013,38(2):153-156.

QI Chunyan, QIU Guoqing, ZHANG Hairong. Influencing factors analysis of floor water invasion prediction model [J]. Journal of Wuhan University, 2013,38(2):153-156.

[15] 闫广,王昕,纵鑫,等.煤矿分布式突水监测系统设计[J].工矿自动化,2015,41(4):5-8.

YAN Guang, WANG Xin, ZONG Xin, et al. Design of distributed water inrush monitoring system of coal mine[J]. Industry and Mine Automation,2015,41(4):5-8.

[16] 李博,张文平,刘子捷,等.基于GIS-ANP的北阳庄煤矿煤层底板含水层富水性评价[J].能源与环保,2020,42(3):49-53.

LI Bo,ZHANG Wenping,LIU Zijie,et al.Water yield property evaluation for coal floor aquifer in Beiyangzhuang Coal Mine based on GIS-ANP[J].China Energy and Environmental Protection,2020,42(3):49-53.

[17] 刘泽威,刘其声,刘洋. 煤层底板隐伏断层分类及突水防治措施[J]. 煤田地质与勘探,2020,48(2):141-146.

LIU Zewei,LIU Qisheng,LIU Yang. Classification of hidden faults in coal seam floor and measures for water inrush prevention[J]. Coal Geology & Exploration,2020,48(2):141-146.

[18] LI Fenglian, ZHANG Xueying, ZHANG Xiqian, et al. Cost-sensitive and hybrid-attribute measure multi-decision tree over imbalanced data sets[J]. Information Sciences,2018,422:242-256.

[19] KRAWCZYK B, WO_ZNIAK M, SCHAEFER G. Cost-sensitive decision tree ensembles for effective imbalanced classication[J]. Applied Soft Computing,2014,14:554-562.

Multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory

LI Yanmin1, ZHOU Chenyang2, LI Fenglian1

(1.College of Information and Computer, Taiyuan University of Technology, Jinzhong 030600, China;2.College of Data Science, Taiyuan University of Technology, Jinzhong 030600, China)

AbstractWhen predicting coal seam floor water inrush, the situation is generally divided into two states: safe state and water inrush state. The state data has non-equilibrium characteristics. The existing coal seam floor water inrush prediction models are mainly suitable for balanced data. In the context of processing unbalanced data sets, the results often show "one-sided" phenomenon which means that the accuracy of safe state prediction is significantly higher than the accuracy of water inrush state, therefore the overall prediction performance is low. To address this problem, the multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory is established. In this model, each decision tree selects different water inrush factors as the root node of the single decision tree, and the node attribute selection criterion of single decision tree combines the cost-sensitive theory and Gini index, thus increasing the penalty for false prediction of water inrush data (minority of cases) and improving the prediction performance of water inrush. The rule set of single decision tree water inrush prediction model is obtained, and the rule set of the multi-decision tree water inrush prediction models are obtained by combining all the rules sets of single decision tree water inrush prediction models. The rule set of the multi-decision tree water inrush prediction models is used to obtain the prediction results of multiple water inrush data. Hence, the final prediction results are obtained based on the voting method and the minority obeying the majority principle. The experimental results show that as the penalty factors of the model increasing, the prediction result of the true positive rate presents a trend of first increasing and then decreasing. Compared with the single decision tree water inrush prediction model based on the classification regression tree (CART) algorithm, the true positive rate of the model can reach 93.06%, and the true negative class rate can reach 97.85%, and the accuracy rate is 96.25% with the data imbalance rate of 2 and the classification error penalty factor of 4. The performance is better than the performance of the water inrush prediction model based on the CART algorithm.When the data imbalance rate is increased to 6 and the penalty factor for classification error is set to 20, the positive class rate of both models reaches 100%. The negative class rate of this algorithm is 99.37% and the accuracy rate is 99.47%, which is still better than the performance of the CART-based water inrush prediction model. The experimental results validate the effectiveness of this model.

Key words:coal seam floor water inrush prediction; water inrush influencing factors; unbalanced data set; cost-sensitive theory; multi-decision trees

中图分类号:TD745

文献标志码:A

文章编号1671-251X(2020)12-0076-08

DOI:10.13272/j.issn.1671-251x.2020060071

收稿日期:2020-06-25;修回日期:2020-11-29;责任编辑:张强。

基金项目:山西省自然科学基金项目(201801D121138); 山西省人才专项项目(201605D211021)。

作者简介:李彦民(1969-),男,山西芮城人,工程师,硕士,研究方向为机器学习、煤矿信息化,Email:lym_999@163.com。

引用格式:李彦民,周晨阳,李凤莲.基于代价敏感理论的多决策树煤层底板突水预测模型[J].工矿自动化,2020,46(12):76-83.

LI Yanmin,ZHOU Chenyang,LI Fenglian.Multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory[J].Industry and Mine Automation,2020,46(12):76-83.