分析研究

面向不平衡数据集的煤矿监测系统异常数据识别方法

冀汶莉,郗刘涛,王斌

(西安科技大学 通信与信息工程学院, 陕西 西安 710054)

摘要异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。

关键词煤矿安全监测; 异常数据识别; 不平衡数据集; 机器学习; 大数据; 下采样; 过采样; 随机森林

0 引言

煤炭工业是我国支柱产业之一,随着智慧矿山的提出,各类煤矿监测监控系统为矿山安全开采提供了必要的技术支持。袁亮院士指出,煤矿灾害监测技术在智能化方向有了较快发展,但灾害前兆信息精准识别和预警仍是需要研究的重要问题之一[1]。煤矿监测监控系统产生了大量监测数据,为灾害前兆信息发现和识别提供了数据基础。在井下复杂环境中,由于传感器等设备暂时性故障、网络数据传输错误等导致的明显偏离正常数据形态的数据为异常数据[2]。异常数据可能包含灾害前兆信息,因此,准确检测出异常数据对煤矿灾害前兆信息识别和煤矿安全预警都具有重要意义。

随着物联网和人工智能技术的不断发展,针对各类监测系统的异常数据自动识别技术逐渐成为研究热点之一。目前,异常数据识别方法包括传统的基于统计学的方法[3-5]和新的基于人工智能的方法[6-8]。基于人工智能的方法利用最近邻、聚类、人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine, SVM)等机器学习算法自主训练识别模型,完成异常值识别[6]。但上述方法没有考虑异常数据和多数类正常数据的数量不平衡性问题。

真实环境下采集到的监测数据极易出现以数据不平衡和数据噪声等为代表的数据不一致现象[9]。一般来说,各种监测系统中异常数据和多数类数据在数量上的不平衡性表现在不同数据类型的比例上,如1∶100或1∶1 000等。因此,在分析数据时,不可忽视其不平衡性。He Haibo等[10]详细分析了机器学习算法应用于不平衡数据集时存在的问题及解决方法。SVM和ANN等传统经典的机器学习算法应用于不平衡数据集时,易造成极端值、数据稀缺等问题,对少数类的识别能力较差。目前针对不平衡数据集的学习分类方法有2种。一种是从数据角度出发,研究采用不同采样算法解决不平衡数据集的学习问题,如Wang Qi等[11]提出基于扩展边界SMOTE SVM的不平衡学习方法,黄建明等[12]提出考虑小波奇异信息与不平衡数据集的输电线路故障识别方法。另一种是从学习模型改造角度出发,通过引入代价敏感学习算法或进行组合学习解决不平衡数据学习问题,如M. Schubach等[13]提出结合采样技术组合学习方法解决基因分类不平衡数据问题。

本文以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象。在煤矿竖井变形监测中,一般是通过监测点光纤传感器的波长与中心波长的差值来反映竖井变形。异常点多是根据人工经验来识别,不但效率低下,还会因为波长漂移等物理因素带来很大的识别偏差。针对该问题,本文提出了一种基于去重复下采样(Removing Dupliation Under-sampling,RDU)、合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)和随机森林(Random Forest,RF)分类算法的RDU-SMOTE-RF异常数据识别方法,并通过实验验证了该方法具有较好的泛化性和较强的鲁棒性。

1 RDU-SMOTE-RF异常数据识别方法

1.1 异常数据识别方法流程

RDU-SMOTE-RF异常数据识别方法用于解决具有时间序列特征的煤矿监测系统不平衡数据集中的异常数据自动识别问题。首先,通过滑动时间窗提取原始波长数据特征属性,作为RF识别模型的输入;然后,通过RDU和SMOTE对不平衡数据集进行平衡处理;最后,利用优化后的数据集训练RF识别模型,对6个传感器产生的监测数据进行异常数据识别。该方法流程如图1所示。

1.2 监测数据特征属性提取

结合机器学习算法的异常数据识别方法具有较强的泛化能力,但前提是需要提取合适的特征属性并形成大量数据样本。本文原始数据来自于某煤矿竖井变形监测系统,共有6个传感器的时间序列监测值,监测值表现为光栅传感器当前时刻的波长。光纤传感器采集的原始数据具有明确的时间特征,为了从原始数据中提取能够准确表征异常数据和正常数据的特征属性,本文提出了移动时间窗τ的概念,通过时间窗的滑动提取原始数据的特征属性。

图1 异常数据识别方法流程

Fig.1 Flow of abnormal data recognition method

时间窗计算公式为

(1)

式中:T为时间窗内的数据流分布周期;Δt为采集数据的时间间隔,T=5Δt

xtt时刻传感器监测值,则在一个时间窗内会出现5个监测值xt-2xt-1,xt,xt+1,xt+2,取xt与前后时刻监测值的差值作为特征属性,并构造出相应的特征向量dt及其样本集D,如式(2)所示。对于数据序列的第1个和第2个原始数据,时间窗内的前2位自动补0;对于数据序列的最后2个监测数据,时间窗内的后2位用当前窗内监测数据的均值来补充。

(2)

式中:

异常数据判断依据如式(3)所示。根据项目实施经验,本文选取判断阈值为0.002和0.004。若数据满足式(3)所示条件,则将原始数据和对应特征向量标记为异常数据(用y标记,y=1),即少数类样本;否则标记为正常数据(y=0),即多数类样本。

xt|y=1 anddt|y=1,

(3)

1.3 不平衡数据集处理

由于监测系统的异常数据属于少数类,造成了特征属性样本集合的数据不平衡。若直接对不平衡数据集通过识别模型识别异常数据,可能会发生过拟合现象,从而使识别性能下降。因此,本文提出使用RDU和SMOTE算法优化训练数据集。

1.3.1 多数类样本下采样

分析特征向量样本集可知,多数类样本存在较多重复数据。通过RDU算法,可在删除重复数据的同时保证数据信息的完整性。RDU算法流程如图2所示。将特征向量样本集中的多数类样本放在集合list()中,设N为多数类样本总数,i,j为迭代变量。外循环采用顺序遍历,内循环采用逆序遍历,逐个删除list()集合中的重复元素。采样结束后输出的新list()集合,即为没有重复元素的多数类样本集合。

图2 RDU算法流程

Fig.2 Flow of RDU algorithm

1.3.2 少数类样本过采样

对于特征向量样本集中已标记的异常数据,采用SMOTE算法产生和已有少数类样本近似的新合成异常数据,以改善数据集的不平衡性。用Y表示已建立样本库中存在的异常数据样本集合,其数学表达式为Y={(dt,y)|y=1}。

SMOTE算法的具体步骤:

(1) 取少数类样本集合中的任意一个特征样本dt,以欧氏距离为标准计算dt到少数类样本集中其他样本da的距离。dtda的欧氏距离为

(4)

(2) 以dt为中心,选出k个欧氏距离最近的样本,得到k个近邻。SMOTE算法原理如图3所示,这里k=6。

图3 SMOTE算法原理

Fig.3 Principle of SMOTE algorithm

(3) 从k个近邻中随机选择一个样本,用dk-1表示,计算dadk-1之间的线性插值,得到和da相似的新的少数类样本dnewdnew计算公式为

dnew=da+(dk-1-da)δ

(5)

式中δ为0~1的随机数。

(4) 根据多数类和少数类样本不平衡比例设置一个采样比例,以确定采样倍率。针对每个少数类样本,重复上述的线性插值过程,最终使少数类样本数目与多数类样本数目相匹配,实现样本集的平衡。

1.4 异常数据识别模型设计

异常数据自动识别问题属于未知样本的二分类问题。借鉴L.Breiman等[14]定义的RF算法思想,设计异常数据识别模型。RF算法是一种集成学习算法[15],以分类回归决策树作为基学习器,结合Bagging思想,在决策树训练过程中引入随机属性选择,最后对所有的子分类器进行集成并通过投票决定分类结果。RF算法具有泛化能力强、方差小、过拟合程度低等优点。RF可表示为{h(X,θg),g= 1,2,…,n},X为输入变量,n为RF中决策树的个数,θg为具有独立同分布的随机向量,其决定了随机性的引入程度,设θg=log2f,其中f为样本特征向量的维度。RF算法学习过程如图4所示。

图4 RF算法学习过程

Fig.4 Learning process of RF algorithm

1.5 RDU-SMOTE-RF算法伪代码

样本集合和相关参数说明:具有不平衡性的特征向量样本集为为正常数据类的特征向量样本集(多数类集合),O为异常数据类的特征向量样本集(少数类集合),Unew为下采样后得到的数据集,Z为数据集D中的样本总数,α为过采样率,itor为迭代次数,n_estimator为决策树个数,max_features为特征变量个数。RDU-SMOTE-RF算法伪代码如下:

1:初始化所有参数。

U=O=Ø;Z=Length(D);

α=0; itor=10;

n_estimator=15; max_features=2;

2:Fori=1 toZ

di是多数类样本,则加入集合U,否则加入集合O

3:采用RDU算法对集合U进行采样,使集合中没有重复元素,得到新的集合Unew

4:计算集合Unew与集合O中元素个数的比值α,根据α值实现函数SMOTE(O,α),得到Omin

Omin:= SMOTE(O,α);

5:合并UnewOmin生成新的均衡的数据集D′:

D′=UnewOmin;

6:while (itor<=10) do

7:对集合D′使用十折交叉验证法划分训练集S_train和测试集S_test。

8:使用RF分类方法训练S_train:

Mi:=RF(S_train);

9:itor:= itor+1;

10:while end;

11:算法结束。

输出:迭代完成时识别模型及参数最优值。

2 异常数据识别效果评价指标

异常数据识别实质是机器学习中的二分类问题,但由于异常数据和正常数据数量上的不平衡性,存在少数类识别率很低而总体准确率很高的情况。因此,单纯以准确率作为算法评价指标不能准确衡量算法对异常数据的识别性能。本文引入分类问题中常用的真阳性率(True Positive Rate ,TPR)、真阴性率(True Negative Rate,TNR)、F1度量、G-mean指标作为评价指标,具体定义如下。

(1) TPR是一种代表正确预测正类样本的比率,在本文中表示对正常数据的正确识别比率,其计算公式为

(6)

式中:TP表示实际是正常数据、预测也是正常数据的样本个数;FN表示实际是正常数据、被错分为异常数据的样本个数。

(2) TNR是一种针对负类的评价准则,在本文中表示对异常数据的正确识别比率,其计算公式为

(7)

式中:FP表示实际是异常数据、被错分为正常数据的样本个数;TN表示实际是异常数据、预测也是异常数据的样本个数。

(3) F1度量是综合考虑查全率R和查准率P的评价指标,是基于查准率与查全率的调和平均,其计算公式为

(8)

(9)

(10)

(4) G-mean是一种整体上衡量数据集分类性能的评价指标,其计算公式为

(11)

3 实验分析

为了验证面向不平衡数据集的异常数据识别方法的性能,在相同实验环境下,基于Python语言,采用SVM,ANN,RF,RDU-SMOTE-RF,RDU-SMOTE-ANN,RDU-SMOTE-SVM算法对不平衡数据集进行异常数据识别,并分析比较了各算法的性能。

3.1 数据来源

实验的原始数据来源于某煤矿分布式光纤竖井变形监测系统中6个光纤传感器2010—2011年所采集的波长数据。每个传感器采集到4 591条数据。针对每个传感器数据提取特征属性并建立样本库,依据工程经验对样本库内的异常数据进行标记。采用十折交叉验证法将每个传感器产生的样本库划分为训练集和测试集。实验数据集基本信息见表1。

3.2 实验条件及识别模型参数设置

RF算法在训练时需要设定2个参数,即决策树的数量n_estimator和每棵树的特征变量数量max_features。为训练出最佳分类参数,分别将n_estimator设置为15,50,70,90,100,将max_features初始值设为2。特征变量个数q=log2f。ANN算法选择tanh作为激活函数,SVM算法选取RBF作为核函数,在SMOTE过采样中特征变量个数q取6。

表1 实验数据集基本信息

Table 1 Basic information of experimental data sets

数据来源特征向量维度样本总数少数类样本数多数类样本数不均衡程度传感器144591154576305∶1传感器244591324559142∶1传感器34459159453277∶1传感器444591364555126∶1传感器54459161453074∶1传感器644591165442627∶1

在6个数据集上分别进行训练和测试,实验过程中发现,RF的分类识别性能随决策树数量的增加而变优,当决策树的数量达到90时,分类识别精确度趋于平稳。训练好的RF分类器参数优化结果:n_estimator=90, max_features=2。

3.3 实验结果分析

为了验证所提方法的有效性和泛化性,分别在原有训练集和优化后的训练集上训练不同类型的分类器,并进行异常数据识别。表2—表7分别给出了将RDU-SMOTE-SVM,RDU-SMOTE-ANN,RDU-SMOTE-RF,SVM,ANN,RF应用于6个传感器的数据集时的异常数据识别结果。分析识别结果可知,总体上不同算法的分类性能均受不平衡数据集的限制和影响,对少数类异常数据的识别能力较差。通过对不平衡数据集进行优化,极大地提高了异常数据的识别准确率。

表2 传感器1不平衡数据集异常数据识别结果

Table 2 Abnormal data recognition result on imbalanced data set of sensor 1

方法TPR/%TNR/%F1G_mean耗时/sSVM100.0033.420.9990.6610.54RDU+SMOTE+SVM98.1798.560.9920.9840.47ANN100.0040.000.9990.61163.72RDU+SMOTE+ANN96.2897.350.9830.96831.23RF100.0066.670.9920.8160.44RDU+SMOTE+RF99.9599.630.9930.9930.41

传感器1数据不平衡程度最高,传感器6数据不平衡程度最低。以表2和表7进行性能分析。表2中,采用SVM,ANN,RF算法进行异常数据识别时,TPR指标达到100%,F1为0.99。这是由于传统分类算法应用于不平衡数据集时,识别结果更倾向于多数类,导致对多数类样本的识别正确率特别高。在TNR指标上,3种传统机器学习算法的异常数据识别性能依次是33.42%,40%和66.67%,表明数据的不平衡性直接影响了机器学习算法对异常数据的识别效率。SVM和ANN算法的G_mean指标只有0.661和0.611,RF算法为0.816,表明综合识别性能不佳。

表3 传感器2不平衡数据集异常数据识别结果

Table 3 Abnormal data recognition result on imbalanced data set of sensor 2

方法TPR/%TNR/%F1G_mean耗时/sSVM100.0046.040.9960.6690.54RDU+SMOTE+SVM94.0599.590.9770.9750.37ANN99.8957.300.9990.68861.39RDU+SMOTE+ANN82.0380.180.8220.81122.17RF100.0072.730.8930.8530.83RDU+SMOTE+RF99.5798.390.9890.9900.38

表4 传感器3不平衡数据集异常数据识别结果

Table 4 Abnormal data recognition result on imbalanced data set of sensor 3

方法TPR/%TNR/%F1G_mean耗时/sSVM99.9153.160.9960.7270.55RDU+SMOTE+SVM95.5697.930.9670.9670.47ANN99.5272.760.9970.84960.67RDU+SMOTE+ANN83.0070.120.7740.76325.32RF99.9370.000.9880.8350.83RDU+SMOTE+RF99.1099.380.9950.9950.41

表5 传感器4不平衡数据集异常数据识别结果

Table 5 Abnormal data recognition result on imbalanced data set of sensor 4

方法TPR/%TNR/%F1G_mean耗时/sSVM99.9433.310.9970.5760.61RDU+SMOTE+SVM94.7598.920.9710.9680.43ANN99.6757.920.9970.75965.48RDU+SMOTE+ANN91.6487.930.9070.90223.36RF99.8530.770.9960.5540.57RDU+SMOTE+RF97.9699.670.9890.9880.46

表6 传感器5不平衡数据集异常数据识别结果

Table 6 Abnormal data recognition result on imbalanced data set of sensor 5

方法TPR/%TNR/%F1G_mean耗时/sSVM99.9738.740.9970.5760.61RDU+SMOTE+SVM93.7598.650.9710.9680.46ANN99.8955.260.9960.74165.39RDU+SMOTE+ANN91.5997.670.9480.94621.26RF99.5668.970.9940.8290.84RDU+SMOTE+RF97.0198.870.9800.9790.46

表7 传感器6不平衡数据集异常数据识别结果

Table 7 Abnormal data recognition result on imbalanced data set of sensor 6

方法TPR/%TNR/%F1G_mean耗时/sSVM99.7359.290.9910.7670.69RDU+SMOTE+SVM95.7198.960.9800.9781.21ANN99.9264.770.9910.80364.46RDU+SMOTE+ANN96.1498.930.9770.97532.60RF99.7780.000.9970.8940.62RDU+SMOTE+RF99.8599.780.9980.9980.47

当对不平衡数据集采用RDU和SMOTE混合技术优化后,再使用分类算法SVM,ANN,RF进行异常数据识别训练,识别性能得到了明显提升。RDU-SMOTE-SVM算法的TNR指标达到98.56%,性能比SVM算法提升了65.14%。RDU-SMOTE-ANN算法的TNR指标达到97.35%,性能比ANN算法提升了57.35%。RDU-SMOTE-RF算法的TNR指标达到99.63%,比RF算法提升了32.96%。G_mean指标也都得到了较大的提升。

传感器6数据不平衡程度较低,但传统的分类算法也不能准确识别异常数据。在优化后的平衡数据集上,3种算法性能都得到了提升,其中RDU-SMOTE-RF算法评估结果最优。综合分析6个数据集的实验结果可知,本文所提方法异常数据识别准确率平均达到99.3%。此外,根据不同识别算法的耗时结果分析,本文所提方法也是具有较小时间复杂度。

3.4 ROC曲线分析

为了进一步分析提出方法的性能,引入ROC(Receiver Operating Characteristic,受试者工作特征)曲线分析。用二维平面上ROC曲线下的面积(Area Under the Curve, AUC)作为评价指标衡量不同分类算法的性能。AUC越大,ROC曲线越接近左上角,表示模型分类性能越强,性能越好。

6个数据集经RDU-SMOTE算法优化后,分别采用RF,ANN,SVM分类算法识别异常数据,得到的ROC曲线如图5—图7所示。可以看出,RF算法的曲线比ANN,SVM曲线更接近于左上角,而且AUC值明显大于ANN,SVM的AUC值。这说明RDU-SMOTE-RF算法异常数据识别性能更强,优于RDU-SMOTE-ANN,RDU-SMOTE-SVM算法。

图5 采用RDU-SMOTE-RF算法得到的ROC曲线

Fig.5 ROC curves obtained by RDU-SMOTE-RF algorithm

图6 采用RDU-SMOTE-ANN算法得到的ROC曲线

Fig.6 ROC curves obtained by RDU-SMOTE-ANN algorithm

图7 采用RDU-SMOTE-SVM算法得到的ROC曲线

Fig.7 ROC curves obtained by RDU-SMOTE-SVM

4 结语

针对煤矿监控系统中异常数据识别问题,提出了面向不平衡数据集的RDU-SMOTE-RF异常数据识别方法。通过下采样算法去除重复样本,通过过采样算法合成新的异常数据,对不平衡数据集进行优化,这种平衡策略也适用于其他多种人工智能算法对不平衡数据集的处理。实验结果表明,RDU-SMOTE-RF算法有较高的异常数据识别率、较强的鲁棒性和泛化能力,同时具有较低的时间复杂度,性能优于RF,ANN,SVM算法及RDU-SMOTE-ANN,RDU-SMOTE-SVM算法。随着互联网+及智能化发展对能源行业的促进,将在煤矿大数据背景下针对异常数据自动识别展开更深入的研究。

参考文献(References):

[1] 袁亮,姜耀东,何学秋,等.煤矿典型动力灾害风险精准判识及监控预警关键技术研究进展[J].煤炭学报,2018,43(2):306-318.

YUAN Liang,JIANG Yaodong,HE Xueqiu,et al.Research progress of precise risk accurate identification and monitoring early warning on typical dynamic disasters in coal mine[J].Journal of China Coal Society, 2018,43(2):306-318.

[2] 浮盼盼.大规模不均衡数据分类方法研究[D].大连:辽宁师范大学,2014.

FU Panpan.Research on classification methods for large-scale imbalanced data[D]. Dalian:Liaoning Normal University,2014.

[3] PAN D, LIU D, ZHOU J et al. Anomaly detection for satellite power subsystem with associated rules based on kernel principal component analysis[J]. Microelectronics Reliability,2015,55(9-10) : 2082-2086.

[4] O'REILLY C, GLUJAK A, IMRAN M A, et al.Anomaly detection in wireless sensor networks in a non-stationary environment[J]. IEEE Communications Surveys&Tutorials, 2014,16(3):1413-1432.

[5] 徐艺文,徐宁彬,庄重文,等.面向群智感知车联网的异常数据检测算法[J].湖南大学学报(自然科学版),2017,44(8):145-151.

XU Yiwen,XU Ningbin,ZHUANG Zhongwen,et al.An algorithm of abnormal data detection for Internet of vehicles based on crowdsensing[J]. Journal of Hunan University (Natural Sciences),2017,44(8):145-151.

[6] 费欢,李光辉.基于K-means聚类的WSN异常数据检测算法[J].计算机工程,2015,41(7):124-128.

FEI Huan,LI Guanghui.Abnormal data detection algorithm for WSN based on K-means clustering[J].Computer Engineering,2015,41(7):124-128.

[7] 许欧阳,李光辉.萤火虫优化和随机森林的WSN异常数据检测[J].计算机科学与探索,2018,12(10):1633-1644.

XU Ouyang,LI Guanghui.Anomaly data detection using glowworm optimization and random forest in wireless sensor networks[J]. Journal of Frontiers of Computer Science and Technology,2018,12(10): 1633-1644.

[8] 段青玲,肖晓琰,刘怡然,等.基于SW-SVR的畜禽养殖物联网异常数据实时检测方法[J].农业机械学报,2017,48(8):159-165.

DUAN Qingling,XIAO Xiaoyan,LIU Yiran,et al.Anomaly data real-time detection method of livestock breeding Internet of things based on SW-SVR[J].Transactions of the Chinese Society for Agricultural Machinery,2017, 48(8):159-165.

[9] MADASAMY K,RAMASWAMI M. Data imbalance and classifiers: impact and solutions from a big data perspective[J]. International Journal of Computational Intelligence Research,2017,9(13): 2267-2281.

[10] HE Haibo, GARCIA E A. Learning from imbalanced data[J].IEEE Transactions On Knowledge and Data Engineering,2009,21(9):1284-1306.

[11] WANG Qi, LUO Zhihao, HUANG Jincai, et al. A novel ensemble method for imbalanced data learning:bagging of extrapolation-SMOTE SVM[J]. Computational Intelligence and Neuroscience, 2017:1-11.

[12] 黄建明,李晓明,瞿合祚,等.考虑小波奇异信息与不平衡数据集的输电线路故障识别方法[J].中国电机工程学报,2017,37(11):3099-3107.

HUANG Jianming,LI Xiaoming,QU Hezuo,et al.Method for fault type identification of transmission line considering wavelet singular information and unbalanced dataset[J]. Proceedings of the CSEE,2017,37(11):3099-3107.

[13] SCHUBACH M, RE M, ROBINSON PN,et al. Imbalance-aware machine learning for predicting rare and common disease-associated noncoding variants[J]. Scientific Reports,2017,7(1): 2959.

[14] BREIMAN L. Random forest[J]. Machine Learning, 2001,45(1):5-32.

[15] 范雨强,崔晓钰,韩华,等.不平衡数据技术在冷水机组故障诊断中的应用[J].工程热物理学报,2019,40(6):1219-1228.

FAN Yuqiang,CUI Xiaoyu,HAN Hua,et al.Chiller fault diagnosis with the technology of imbalanced data[J].Journal of Engineering Thermophysics,2019,40(6):1219-1228.

[16] 刘统玉,王纪强,孟祥军,等.面向矿山安全物联网的光纤传感器[J].工矿自动化,2018,44(3):1-7.

LIU Tongyu,WANG Jiqiang,MENG Xiangjun, et al. Optical fiber sensor for mine safety Internet of things[J].Industry and Mine Automation,2018,44(3):1-7.

[17] 孙慧影,林中鹏,黄灿,等.基于改进BP神经网络的矿用通风机故障诊断[J].工矿自动化,2017,43(4):37-41.

SUN Huiying,LIN Zhongpeng,HUANG Can, et al.Fault diagnosis of mine ventilator based on improved BP neural network[J]. Industry and Mine Automation,2017,43(4):37-41.

Abnormal data recognition method of coal mine monitoring system based on imbalanced data set

JI Wenli, XI Liutao, WANG Bin

(College of Communication and Information Engineering, Xi'an University of Science and Technology, Xi'an 710054, China)

AbstractAbnormal data recognition plays an important role in mine safety monitoring system, but abnormal data generally only accounts for about 1% of the total data of the safety monitoring system, data imbalance is an intrinsic characteristics of real-time data. At present, most of machine learning algorithms have relatively poor classification accuracy and sensitivity while dealing with classification on imbalanced data sets. In order to accurately identify abnormal data, the data collected by the distributed fiber shaft deformation monitoring system of coal mine is taken as research object, RDU-SMOTE-RF abnormal data recognition method of coal mine monitoring system based on imbalanced data set was proposed. The method uses RDU algorithm for under-sampling of majority data to remove duplicate samples,uses SMOTE algorithm for oversampling of minority abnormal data to improve the imbalance of the data set by synthesizing new abnormal data, and uses the optimized data set to train random forest (RF) classification algorithm to get abnormal data recognition model. The comparison experimental results on 6 real data sets show that the method has an average recognition accuracy rate of 99.3% for abnormal data, which has good generalization and strong robustness.

Key words:coal mine safety monitoring; abnormal data recognition; imbalanced data set; machine learning; big data; under-sampling; oversampling; random forest

中图分类号:TD76

文献标志码:A

文章编号1671-251X(2020)01-0018-08

DOI:10.13272/j.issn.1671-251x.17502

收稿日期:2019-09-01;修回日期:2019-12-26;责任编辑:胡娴。

基金项目:国家重点研发计划项目(2018YFC0808301);国家自然科学基金资助项目(41027002,51804244);陕西省教育厅科研计划项目(16JK1488)。

作者简介:冀汶莉(1973-),女,陕西西安人,副教授,硕士,研究方向为煤矿安全监测系统数据智能处理、机器学习,E-mail:jiwenli@xust.edu.cn。

引用格式:冀汶莉,郗刘涛,王斌.面向不平衡数据集的煤矿监测系统异常数据识别方法[J].工矿自动化,2020,46(1):18-25.

JI Wenli,XI Liutao,WANG Bin.Abnormal data recognition method of coal mine monitoring system based on imbalanced data set[J].Industry and Mine Automation,2020,46(1):18-25.