实验研究

基于随机森林的综放工作面煤矸图像识别

薛光辉, 李秀莹, 钱孝玲, 张云飞

(中国矿业大学(北京) 机电与信息工程学院, 北京 100083)

摘要针对目前综放工作面煤矸图像识别方法存在的参数调节难度高、预测准确率低、易过拟合等问题,提出了一种基于随机森林(RF)算法的综放工作面煤矸图像识别方法。以担水沟煤矿6203综放工作面为工程背景,采集放煤口的煤矸图像并对其进行裁剪、灰度转化、对比度增强、图像滤波预处理;采用灰度-梯度共生矩阵提取出15个煤矸图像纹理特征;采用RF算法对15个煤矸纹理特征的重要性进行排序,并选取前5个实现降维处理,分析降维前后RF算法对煤矸图像的识别效果。结果表明,在决策树个数为150、采用方法计算每次分裂时的特征数情况下,降维后RF模型的煤矸分类准确率为97%,比降维前提高4%,煤矸分类查准率为0.98,查全率为0.96,且袋外错误经50次迭代达到9%,泛化能力更强。

关键词综放工作面; 煤矸图像识别; 煤矸图像纹理特征; 垮落煤矸自动识别; 随机森林算法

0 引言

目前智能化开采成为煤炭安全高效开采的发展方向与必然趋势。国家能源技术革命创新行动计划、国家安全生产监督管理局“机械化换人、自动化减人”科技强安专项行动都将煤炭智能化开采技术列为重点研究方向[1]。每年地下开采的厚煤层产量占煤炭总产量的45%左右,综合机械化放顶煤(综放)开采是目前我国厚煤层矿区主要的采煤方式[2]。由于综放工作面煤矸识别理论和技术尚不成熟,目前多采用人工进行放煤控制。顶煤放落时,主要依靠放煤工人通过耳听和眼观来判断放落的是煤还是矸石,并以此确定顶煤是否放完。放煤过程中存在放煤口粉尘较大、光线弱、空间狭窄等情况,难以准确判断顶煤放落程度,容易导致过放或欠放,且严重损害工作人员身体健康。因此,垮落煤矸自动识别是综放开采智能化的基础理论和关键技术之一,已成为国内外研究热点。

目前有伽马射线法[3]、振动信号法[4-5]、声波信号法[6]、图像法[7]等应用于煤矸识别,前3种方法受到煤矸物理特性等条件的限制。越来越多的学者利用图像法对煤矸识别进行研究:伍云霞等[8]提出基于字典学习算法提取煤矸图像特征;孙继平等[9]通过支持向量机对煤矸特征识别进行了研究;田慧卿等[10]利用小波变换提取图像纹理特征以进行煤矸识别。但现有方法存在参数调节难度高、预测准确率低、易过拟合等问题。针对上述问题,本文提出基于随机森林(Random Forest,RF)算法的综放工作面煤矸识别方法。利用灰度-梯度共生矩阵提取纹理特征,采用RF算法对煤矸纹理特征重要性进行排序降维,对比分析了降维前后RF分类模型对煤矸图像的识别效果。该方法可为放煤自动化提供理论基础。

1 RF算法原理

RF算法于1995年由L. Breiman和Adele Cutler提出[11],是基于Bootstrap重采样法[12],在决策树模型[13]基础上,采用Bagging集成方式[14]构造的学习算法。RF算法下的综放工作面煤矸图像样本分类原理如图1所示。

设(X,Y)∈RM×R,其中X为具有M个元素的特征向量,Y为样本的标签向量。取N个样本构成训练集SZ个样本构成测试集Q,则RF生成步骤如下。

图1 RF算法下的综放工作面煤矸图像样本分类原理
Fig.1 Classification principle of coal-gangue image in fully
mechanized top coal caving face based on RF algorithm

(1) 利用Bootstrap重采样法从训练集S中随机且有放回地抽取样本,构建n个子训练集Si(i=1,2,…,n),每次未被抽取到的样本称为袋外数据(Out-of-Bag,OOB)[15]

(2) 将子训练集Si作为输入,构建分类回归决策树,决策树生成过程中,从M个特征中随机且无放回地抽取m个特征作为子集(m远小于M),使用基尼指数选取最优属性进行节点分裂。每棵子决策树ti最大限度生长,不进行剪枝,m值在整个森林生长过程中保持不变,样本集和特征选择都是随机的,因此子决策树间相互独立,且一定程度上可减少模型过拟合。

(3) 将生成的子决策树的分类结果进行组合,设Pi(cz/f)(z=1,2,…,ff为类别总数)为子决策树ti分类后某一类别cz出现的概率。煤矸分类为二分类,即f=2,设c1表示分类结果为煤,c2表示分类结果为矸石。

(4) 将测试集中的每一个样本送到每一棵决策树中进行预测,设为某一样本在n个子决策树投票下类别为煤的概率,为某一样本在n个子决策树投票下类别为矸石的概率。若P(c1/2)>P(c2/2),则预测类别为煤;若P(c1/2)<P(c2/2),则预测类别为矸石。

因OOB没有参与RF模型训练,可采用OOB构造袋外误差EOOBEOOB与交叉验证得到的误差基本一致,常作为模型的泛化误差估计,计算复杂度低,其公式为

(1)

式中Ei为单个OOB预测误差。

2 样本集的建立

2.1 煤矸图像预处理

顶煤放落试验在山西中煤担水沟煤业有限公司担水沟煤矿6203综放工作面进行。该工作面开采9号煤,平均厚度为17.56 m,矸石类型为砂质泥矸与中砂矸。利用矿用摄像仪获取放煤口图像。煤矿井下工作面光线较弱,因此使用防爆光源进行均匀补光。试验中共选取300组垮落煤矸图像,其中200组组成训练集,100组组成测试集。

对采集到的图像做裁剪、灰度转化、对比度增强、图像滤波等预处理。预处理前后的垮落煤矸图像如图2所示。

煤原图

灰度图

增强对比度

图像滤波

(a) 垮落煤预处理前后图像

矸石原图

灰度图

增强对比度

图像滤波

(b) 垮落矸石预处理前后图像

图2 预处理前后的垮落煤矸图像
Fig.2 Caving coal-gangue image before and
after pretreatment

2.2 煤矸纹理特征提取

灰度-梯度共生矩阵[16]是图像像素距离和角度的矩阵函数,通过图像中一定距离和方向的两点灰度之间的相关性反映图像在方向、间隔、变化上的综合信息。将图像的梯度信息加入到灰度-梯度共生矩阵中,可使共生矩阵更能包含图像的纹理基元及其排列信息,即{H(h,g);h=0,1,…,Lh-1;g=0,1,…,Lg-1},其中H(h,g)为灰度-梯度共生矩阵,h为灰度,g为梯度的总像素个数,Lh为灰度图像的灰度级数,Lg为梯度图像的灰度级数。为降低计算的复杂性,对灰度-梯度共生矩阵进行归一化处理,使其各元素之和为1。

(2)

H(h,g)基础上,提取了300组煤矸图像的小梯度优势W1、大梯度优势W2、灰度分布不均性W3、梯度分布不均性W4、能量W5、平均灰度W6、平均梯度W7、灰度均方差W8、梯度均方差W9、相关性W10、灰度熵W11、梯度熵W12、混合熵W13、惯性W14、逆差距W15 15个纹理特征,即煤矸纹理特征数M=15。构建特征向量WW=[W1,W2,…,W15],定义垮落顶煤标签为1,垮落矸石标签为2。垮落顶煤和矸石的灰度-梯度共生矩阵纹理特征见表1。

2.3 煤矸纹理特征重要性分析

RF算法在模型构造过程中对煤矸各个纹理特征重要性进行评估。煤矸纹理特征重要性计算方法有2种。

表1 垮落顶煤和矸石的灰度-梯度共生矩阵纹理特征
Table 1 Gray-gradient co-occurrence matrix texture features of caving top coal and gangue

编号特征W1W2W3/103W4/104W5/10-3W6W7W8W9W10W11W12W13W14/103W15/10-2标签10.444.323.546.467.4613.13.310.44.761.821.480.842.544.031.82煤20.454.433.486.886.6411.22.99.544.280.031.520.802.574.113.21煤30.454.333.096.816.4512.32.810.23.850.111.560.782.654.131.64煤︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙︙2980.376.053.614.973.0927.44.426.85.29-9.31.830.952.8714.300.01矸石2990.376.114.215.032.9833.74.246.35.08-1.71.860.942.8912.800.01矸石3000.386.014.225.172.8633.34.032.74.72-1.81.910.922.9613.800.01矸石

(1) 把一个特征变量的取值变为随机数,计算对应的RF预测精度的降低程度。该值越大表示该煤矸纹理特征变量重要性越大。

(2) 采用基尼指数计算每个特征变量对决策树节点上预测值的异质性即节点不纯度的影响。该值越大表示该煤矸纹理特征变量的重要性越大。

衡量煤矸图像灰度-梯度共生矩阵特征重要性的指标如图3所示,指标值越高表示该特征对分类的影响越大。图3(a)是采用精度平均减少值作为衡量标准,而图3(b)则是采用节点不纯度的平均减少值作为衡量标准。由图3可知,小梯度优势W1、梯度分布不均性W4、平均灰度W6、惯性W14、逆差矩W15 5个特征具有较高的重要性,在RF分裂时贡献较大。

(a) 预测精度平均减少值为衡量标准

(b) 节点不纯度平均减少值为衡量标准

图3 煤矸图像灰度-梯度共生矩阵特征重要性
Fig.3 Importance of gray-gradient co-occurrence matrix of
coal gangue image

对煤矸纹理特征进行降维,只保留小梯度优势W1、梯度分布不均性W4、平均灰度W6、惯性W14、逆差矩W15 5个特征值进行模型分类。构建特征向量VV=[W1,W4,W6,W14W15]。定义垮落顶煤标签为1,垮落矸石标签为2,构建样本数据库。

3 实验与结果分析

分别采用降维前的煤矸纹理特征W和降维后的煤矸纹理特征V作为RF的输入向量,构建W-RF模型、V-RF模型,进行关键参数的选择,分析对比2种模型的煤矸图像分类准确率及泛化能力,探讨所提出的分类算法应用在综放工作面煤矸图像识别的可行性。

3.1 关键参数的选择与确定

RF模型在对煤矸纹理特征进行训练时,需要调节的关键参数主要包括决策树个数n及每次分裂时选取的特征数量m

决策树个数n主要根据训练集的规模和特点而定。为减少随机性的影响,设置决策树最大个数为1 000,m为缺省值,在某一确定的决策树个数下,建立100个RF模型进行训练,取煤矸分类准确率的平均值为当前决策树个数下的分类准确率,利用两种RF模型(W-RF、V-RF)进行实验,决策树个数对分类性能影响如图4所示。

由图4可知,不论是降维前还是降维后的煤矸纹理特征作为输入向量,煤矸分类准确率都在决策树个数为100~200区间内达到最高,综合考虑分类准确率及建模速度,选取决策树个数n为150。

图4 决策树个数对煤矸分类性能的影响
Fig.4 Influence of number of decision tree on
classification performance of coal-gangue

根据文献[11],m可根据总特征数M计算所得,常见的计算方法有采用不同方法计算m,并在RF模型上进行煤矸识别实验,得到相应的W-RF和V-RF模型煤矸分类准确率,结果见表2。

表2 W-RF和V-RF在不同m值下煤矸分类准确率
Table 2 Coal-gangue classification accuracy by W-RF and
V-RF under different m values

mM/2MlogM2+1M-RF分类准确率/%939093V-RF分类准确率/%959397

由表2可知,采用方法计算得到的m值对应的RF模型煤矸分类准确率相对较高。W-RF模型分类准确率最高可达93%,V-RF模型分类准确率最高可达97%。因此,本文采用方法计算m

3.2 实验结果分析

(1) RF模型下煤矸分类的查准率与查全率。对于煤矸分类问题,可将测试集根据其真实标签与RF分类结果划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),具体指标见表3。

表3 降维前后RF模型在测试集上的指标
Table 3 Indicators of RF model on test set before and
after dimension reduction

训练模型TPFPTNFNM-RF452485V-RF481492

查准率是针对RF预测煤矸分类结果而言的,它表示预测为煤的样本中有多少是真正的煤,即TP/(TP+FP)。

查全率是针对测试煤矸样本而言的,它表示样本中的煤有多少被分类正确,即TP/(TP+FN)。

在本次实验中,降维前RF煤矸分类的查准率为0.96,查全率为0.9。降维后RF煤矸分类的查准率为0.98,高出降维前0.02,降维后RF煤矸分类的查全率为0.96,高出降维前0.06。

(2) RF模型煤矸分类的泛化能力。主要从煤矸测试集分类结果、袋外错误率对RF模型煤矸分类的泛化能力进行分析。

煤矸纹理特征降维前后RF模型在测试集上的分类结果如图5所示。同时,如果RF模型对图像的预测类别与测试集中标签类别一致,以“○”标记,反之用“*”标记。

(a) 降维前

(b) 降维后

图5 降维前后RF模型煤矸样本预测结果
Fig.5 Prediction results of coal-gangue samples of RF
model before and after dimension reduction

由图5可知,降维后的RF模型对于煤矸图像错误分类少于降维前的RF模型,错误分类的煤矸图像都分布在中心区域,即在RF模型分类过程中,当输出为煤和矸石的决策树个数相当时,会发生错误分类的现象,这种情况下产生错误是可以接受的,即RF模型的煤矸分类泛化能力可以接受。

降维前后RF模型在煤矸识别过程中产生的袋外错误率如图6所示。

由图6可知,降维前RF模型煤矸分类袋外错误率经50次迭代缓慢达到10%~11%,降维后RF模型煤矸分类袋外错误率经50次迭代快速收敛达到9%,说明降维后RF模型煤矸分类的泛化能力更好,且收敛、训练速度更快。

4 结论

(1) 开展了综放工作面顶煤放落试验,提取了煤矸图像的灰度-梯度共生矩阵纹理特征,构建了纹理特征向量,为后续研究提供了数据支持。

(a) 降维前

(b) 降维后

图6 降维前后RF模型煤矸分类袋外错误率
Fig.6 OOB error rate of coal-gangue classification
before and after dimension reduction

(2) 根据RF特性对煤矸纹理特征进行重要性排序,在15个特征向量中选取前5个进行降维处理,对煤矸识别中RF模型关键参数进行选择,并分析降维前后RF模型对煤矸图像的分类性能,结果表明,在决策树个数n为150,采用方法计算分裂时的特征数mV-RF模型的煤矸分类准确率为97%,比降维前提高4%,煤矸分类查准率为0.98,查全率为0.96,且袋外错误率经50次迭代达到9%,泛化能力更好。

参考文献(References):

[1] 王国法,范京道,徐亚军,等.煤炭智能化开采关键技术创新进展与展望[J].工矿自动化,2018,44(2):5-12.

WANG Guofa,FAN Jingdao,XU Yajun,et al.Innovation progress and prospect on key technologies of intelligent coal mining[J].Industry and Mine Automation,2018,44(2):5-12.

[2] 牛剑峰.综采放顶煤工作面自动放煤控制系统研究[J].工矿自动化,2018,44(6):27-30.

NIU Jianfeng.Research on automatic drawing control system on fully-mechanized coal face with sublevel caving[J].Industry and Mine Automation,2018,44(6):27-30.

[3] 张宁波,鲁岩,刘长友,等.综放开采煤矸自动识别基础研究[J].采矿与安全工程学报,2014,31(4):532-536.

ZHANG Ningbo,LU Yan,LIU Changyou,et al.Basic study on automatic detection of coal and gangue in the fully mechanized top coal caving mining[J].Journal of Mining & Safety Engineering,2014,31(4):532-536.

[4] 薛光辉,赵新赢,柳二猛,等.基于振动信号时域特征的综放工作面煤岩识别[J].煤炭科学技术,2015,43(12):92-97.

XUE Guanghui,ZHAO Xinying,LIU Ermeng,et al.Time-domain characteristic extraction of coal and rock vibration signal in fully-mechanized top coal caving face[J].Coal Science and Technology,2015,43(12):92-97.

[5] 张良,牛剑峰,代刚,等.综放工作面煤矸自动识别系统设计及应用[J].工矿自动化,2014,40(9):121-124.

ZHANG Liang,NIU Jianfeng,DAI Gang,et al.Design of automatic identification system of coal and gangue for fully-mechanized coal caving working face and its application[J].Industry and Mine Automation,2014,40(9):121-124.

[6] 薛光辉,柳二猛,赵新赢,等.基于声压信号时域特征的综放工作面煤岩性状识别方法研究[J].煤炭工程,2015,47(6):119-122.

XUE Guanghui,LIU Ermeng,ZHAO Xinying,et al.Research of coal-rock character recognition in fully mechanized caving face based on acoustic pressure data time domain analysis[J].Coal Engineering,2015,47(6):119-122.

[7] 余乐.一种煤和煤矸石图像识别的新方法[J].现代计算机(专业版),2017(17):66-70.

YU Le.A new method for image recognition of coal and coal gangue[J].Modern Computer,2017(17):66-70.

[8] 伍云霞,田一民.基于字典学习的煤岩图像特征提取与识别方法[J].煤炭学报,2016,41(12):3190-3196.

WU Yunxia,TIAN Yimin.Method of coal-rock image feature extraction and recognition based on dictionary learning[J].Journal of China Coal Society,2016,41(12):3190-3196.

[9] 孙继平,佘杰.基于支持向量机的煤岩图像特征抽取与分类识别[J].煤炭学报,2013,38(增刊2):508-512.

SUN Jiping,SHE Jie.Coal-rock image feature extraction and recognition based on support vector machine[J].Journal of China Coal Society,2013,38(S2):508-512.

[10] 田慧卿,魏忠义.基于图像识别技术的煤岩识别研究与实现[J].西安工程大学学报,2012,26(5):657-660.

TIAN Huiqing,WEI Zhongyi.The research and implementation of coal and rock identification based on image recognition technology[J].Journal of Xi'an Polytechnic University,2012,26(5):657-660.

[11] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):25-32.

[12] KULESA A,KRZYWINSKI M,BLAINEY P,et al.Points of siginificance:sampling distribution and the bootstrap[J].Nature Methods,2015,12(6):477-478.

[13] 杜春蕾,张雪英,李凤莲.改进的CART算法在煤层底板突水预测中的应用[J].工矿自动化,2014,40(12):52-56.

DU Chunlei,ZHANG Xueying,LI Fenglian.Application of improved CART algorithm in prediction of water inrush from coal seam floor[J].Industry and Mine Automation,2014,40(12):52-56.

[14] 任涛,林梦楠,刘杰,等.基于Bagging集成学习算法的地震事件性质识别分类[J].地球物理学报,2019,62(1):383-392.

REN Tao,LIN Mengnan,LIU Jie,et al.Seismic event classification based on bagging ensemble learning algorithm[J].Chinese Journal of Geophysics,2019,62(1):383-392.

[15] 邓军,雷昌奎,曹凯,等.采空区煤自燃预测的随机森林方法[J].煤炭学报,2018,43(10):2800-2808.

DENG Jun,LEI Changkui,CAO Kai,et al.Random forest method for predicting coal spontaneous combustion in gob[J].Journal of China Coal Society,2018,43(10):2800-2808.

[16] 谭春超,杨洁明.煤与矸石图像灰度信息和纹理特征的提取研究[J].工矿自动化,2017,43(4):27-31.

TAN Chunchao,YANG Jieming.Research on extraction of image gray information and texture features of coal and gangue image[J].Industry and Mine Automation,2017,43(4):27-31.

Coal-gangue image recognition in fully-mechanized caving face based on random forest

XUE Guanghui, LI Xiuying, QIAN Xiaoling, ZHANG Yunfei

(School of Mechanical Electronic and Information Engineering, China University of Mining and Technology (Beijing), Beijing 100083, China)

Abstract:Aiming at problems of high difficulty in parameter adjustment, low prediction accuracy and easy over-fitting in present coal-gangue image recognition methods in fully-mechanized caving face, a coal-gangue image recognition method in fully mechanized caving face based on random forest (RF) algorithm is proposed. Taking 6203 fully-mechanized caving face of Danshuigou Coal Mine as project background, coal-gangue image of caving mouth are collected and pre-processed by clipping, gray conversion, contrast enhancement and image filtering. Fifteen texture features of coal-gangue image are extracted by gray-gradient co-occurrence matrix. RF algorithm is used to rank the importance of the fifteen coal-gangue texture features, and the first five features are selected for dimension reduction. Recognition effect of RF algorithm on coal-gangue images before and after dimension reduction is analyzed. The results show that when the number of decision tree is 150 and the number of features in each split is calculated by method, accuracy rate of coal-gangue classification of RF model after dimension reduction is 97%, which is 4% higher than that before dimension reduction, accuracy rate coal-gangue classification is 0.98, recall rate is 0.96, and out-of-bag error rate reaches 9% after 50 iterations with stronger generalization.

Key words:fully-mechanized caving face; coal-gangue image recognition; texture feature of coal- gangue image; automatic recognition of falling coal-gangue; random forest algorithm

中图分类号:TD672

文献标志码:A

收稿日期:2019-11-25;修回日期:2020-01-15;责任编辑:李明,郑海霞。

基金项目:国家自然科学基金资助项目(51834006);国家重点基础研究发展计划(973计划)资助项目(2014CB046306);中央高校基本科研业务费专项资金资助项目(2009QJ16)。

作者简介:薛光辉(1977-),男,河南汝州人,副教授,博士,主要从事煤矿机器人、矿山装备智能控制、设备健康诊断和无线传感器网络等方面的研究工作,E-mail:xgh@cumtb.edu.cn。

引用格式:薛光辉,李秀莹,钱孝玲,等.基于随机森林的综放工作面煤矸图像识别[J].工矿自动化,2020,46(5):57-62.

XUE Guanghui,LI Xiuying,QIAN Xiaoling,et al.Coal-gangue image recognition in fully-mechanized caving face based on random forest[J].Industry and Mine Automation,2020,46(5):57-62.

文章编号1671-251X(2020)05-0057-06

DOI:10.13272/j.issn.1671-251x.2019110064