Research, practice and application of key technologies of intelligent coal mine big data governance
-
摘要: 针对智能化煤矿建设过程中存在的“数据孤岛”现象严重、数据质量低、数据治理体系缺乏、数据赋能不够充分等问题,分析了智能化煤矿大数据治理的基本需求,研究了智能化煤矿的数据采集和存储、数据清洗与标准化处理、数据资产规划、数据共享交换等关键技术。结合小保当煤矿数据治理现场实践情况,提出了基于工业互联网体系的智能化煤矿大数据治理总体技术架构,该架构功能与智能化煤矿大数据治理的基本需求相对应,向下实现多源异构感知数据的接入、集成和融合,向上为各种煤矿智能化应用开发提供数据服务,中间沉淀煤矿各类业务指标、模型算法,形成煤矿重要的数据资产。基于不同的数据接入协议,通过数据接入存储服务统一接入煤矿各系统的数据;通过数据清洗与标准化服务实现数据加工,提升数据质量;采用分层治理架构将数据转换为体系化的分层数据资产;通过数据共享服务将数据资产以标准接口的方式提供给其他系统使用,实现数据价值落地。从煤矿单系统应用、矿井级应用和公司级系统应用全方面展示智能化煤矿数据治理成果在不同业务场景下的实践应用情况,智能化煤矿大数据经过统一的数据治理之后,能够实现数据的融合应用,打破数据孤岛,提升数据质量,形成煤矿独有的数据资产,为煤矿生产运营提供重要价值。Abstract: In the process of intelligent coal mine construction, there are problems such as the "data island" phenomenon, low data quality, lack of data governance system, and insufficient data empowerment. In order to solve the above problems, this paper analyzes the basic requirements of intelligent coal mine big data governance. This paper studies the key technologies of intelligent coal mines such as data acquisition and storage, data cleaning and standardization, data asset planning, data sharing and exchange. Combined with the field practice of data governance in Xiaobaodang Coal Mine, the overall technical architecture of intelligent coal mine big data governance based on the Industrial Internet system is proposed. The architecture functions correspond to the basic requirements of intelligent coal mine big data governance. It realizes the access, integration and fusion of multi-source heterogeneous perception data downward, provides data services for the development of various coal mine intelligent applications upward, and sediment various business indicators and model algorithms of coal mines in the middle, forming important data assets for coal mines. Unified access to to data form various coal mine systems is achieved through data access storage services based on different data access protocols. The necessary protocol conversion and data preprocessing are realized during the access process. The data processing is achieved through data cleaning and standardization services to improve data quality. The data is transformed into systematic data assets by adopting a hierarchical governance architecture. Finally, data assets are provided to other systems through standard interfaces through data sharing services, achieving the implementation of data value. The practical application of intelligent coal mine data governance achievements in different business scenarios is demonstrated from the perspective of coal mine single system application, mine-level application and company-level system application. After unified data governance, intelligent coal mine big data can achieve data fusion applications. It can break data islands, improve data quality, form coal mine unique data assets, and provide important value for coal mine production and operation.
-
0. 引言
随着大数据、人工智能等技术的不断发展和应用,煤矿大数据呈现爆炸式增长,需要充分利用矿山生产中的大量数据,对这些数据进行有效的管理、分析和挖掘,从而提高矿山生产效率和资源利用率,优化矿山生产结构,实现矿山生产的可持续发展[1-2]。研究智能化煤矿大数据治理技术,对于提高煤矿企业的数据管理和利用水平、优化煤矿生产结构、提高煤矿智能化水平具有重要意义。
针对智能化煤矿大数据治理技术,国内外学者已经开展了大量研究工作,将机器学习、人工智能等技术应用于矿山大数据治理中,从大数据采集、处理、存储、分析和应用等方面进行了探索和实践,提高了矿山企业的数据管理和利用水平[3-4]。但在实际应用中仍存在一些难题,主要集中在以下方面:① “数据孤岛”现象严重。数据交换多数仍是人工方式,缺乏数据处理系统之间的业务协同,时效性差,数据仍以分散和弱关联方式存在,系统效率低,难以分析煤矿开采过程中的动态演进规律,无法实现大数据融合应用[5-6]。② 数据质量低,缺乏统一的数据标准。煤矿内部应用系统众多,且各类数据没有统一的标准[7],导致煤矿大数据质量较低[8],难以实现多源数据融合应用。③ 数据治理体系缺乏。虽然在子系统层面有一些数据使用标准,但仍然缺乏针对总体数据的治理标准。④ 数据赋能不够充分,概念性的研究过多,应用实践相对较少。煤矿生产运营过程中虽然产生了大量数据,但是没有对实际生产、经营决策进行充分赋能。
针对上述问题,本文研究了智能化煤矿的数据采集和存储、数据清洗与标准化处理、数据资产规划、数据共享交换等关键技术。结合陕西煤业小保当矿业有限公司(简称小保当煤矿)数据治理现场实践情况,验证大数据技术的有效性。
1. 智能化煤矿大数据治理需求
目前全国已建成多处智能化煤矿及智能化采掘工作面,产生了海量数据。这些数据可分为结构化、半结构化和非结构化3种。结构化数据指具有明确定义格式和模式的数据,主要包括生产经营业务数据和设备环境物联网数据。半结构化数据指没有严格定义格式但具有标记或标签以帮助组织信息处理的文本,如煤矿资产管理系统中的合同数据、人力资源管理系统人员简历信息数据及各种系统后台运行日志数据。非结构化数据指无法用传统方法解析或存储在表格中的任何形式的数据,如井下传感器采集的图像、音频、视频等。基于音视频数据进行煤矿大数据分析是智能化煤矿区别于传统煤矿的重要特点之一。智能化煤矿数据具有数据规模大且分散、数据类型多样、采集和处理速度快和数据价值密度低等一般大数据的特征,另外还具有数据时序性强、数据关联性强等特征[2-4]。
根据智能化煤矿大数据的特征及当前数据治理存在的问题,得出智能化煤矿大数据治理的基本需求:① 对数据进行统一采集和存储,打破各子系统间的壁垒,给数据融合应用提供必要条件。② 对低质量数据进行数据清洗与标准化处理工作,提升数据质量和规范性,满足应用分析过程中的要求。③ 进行数据资产统一规划,形成标准的数据资产并提供数据的标准共享服务。④ 基于煤矿实际情况开展数据治理实践工作,形成智能化应用。
2. 智能化煤矿大数据治理关键技术
2.1 数据采集与存储
数据采集与存储是煤矿大数据治理的基础。针对不同来源、不同类型的数据,可选择不同的工业协议进行数据实时采集或离线同步。自动化控制系统可采用自动化控制协议,如EIP、Modbus、OPC、S7、IEC104等。应用系统可采用HTTP、WebSocket、MQTT等协议进行实时数据采集,或采用DataX、Sqoop等进行离线数据同步,将数据汇聚至数据中心。超媒体协议包括HyperText、MultiMedia等,可用于文本、音视频、图形图像等类型数据采集[9-11]。
采集的数据经预处理、列式分组、压缩等处理后保存在大数据存储引擎上。可根据数据处理业务不同,选择不同的数据存储引擎及压缩方式。常用的存储方式包括关系型数据库和非关系型数据库。关系型数据库基于关系模型设计,在表格中组织和表示相关联实体之间的关系及其属性信息,如MySQL。非关系型数据库不依赖于传统的表格结构,更加灵活且易于扩展,如NoSQL。
非关系型数据库根据数据存储方式不同主要可分为以下几种:① 键值对存储,例如Redis,以键值对形式存储数据,适用于高性能读写场景。② 列族存储,例如 HBase,对列进行分组并按照列族进行压缩,适用于大量写入操作和稀疏数据集。③ 文档型数据库,例如MongoDB,存储半结构化文档格式(如 JSON数据)。④ 时间序列数据库,例如InfluxDB,主要用来保存按时间顺序排列的连续数据点,适合物联网(Internet of Things,IoT)设备[12-15]。
2.2 数据清洗与标准化处理
由于煤矿数据系统众多,数据来源复杂,数据类型多样,数据产生及采集过程中会出现各种问题,导致数据质量低,所以需要按照数据清洗标准,对统一汇聚起来的数据进行清洗和处理,对不规范、不完整、不准确的数据进行删除或更正,以确保最终结果可靠和准确。
数据清洗是指识别并纠正数据中的错误、不准确或不完整的部分,以确保数据的质量和可靠性。对于数据缺失情况,可采用多种数据补齐法自动化填充;对于数据重复情况,可采用直接去重法、优化数据库等方法进行处理;对于数据异常情况,可采用数据异常检测算法进行处理。对清洗过程中识别出的异常数据进行标记,实现逻辑删除,同时提供对清洗前原始数据的访问。
数据标准化处理是指通过统一的标准对煤矿各系统通用的数据进行规范化、标准化。常见的数据标准化处理手段包括数据命名规范、数据内容规范、数据字典规范、数据格式规范。标准的数据规范有助于降低煤炭企业的数据管理和应用成本。
2.3 数据资产规划
数据资产规划的目的是实现数据价值的充分利用,贯穿在数据治理的整个过程中,应与数据价值实现的业务逻辑过程相适应,其主要包含2个部分:一是对数据资产进行盘点,二是选择合理的方式对数据资产进行组织。
煤矿企业数据资产盘点主要分为以下几个部分:① 明确煤矿企业数据资产的范围,包括企业内部数据、外部数据、用户生成数据等。② 对数据资产进行分类,可从公司部门、系统设备、生产运营等多个主题维度来进行,也可从数据价值的角度来进行。③ 评估数据资产价值,将直接用于决策判断的高价值数据统一存储,通过共享交换实现数据复用。④ 通过数据共享交换明确数据的流向。
根据煤矿业务逻辑处理的特点,采用合理的分层结构对煤矿数据资产进行组织,该方式具有以下优点:① 可明确数据存储结构。每一层次的数据都有其作用域和职责,使用相关层次数据时能快速明确其定位。② 可减少重复开发。采用规范化的数据分层结构,能够减少数据重复计算。③ 可统一数据口径。通过数据分层,便于提供统一的数据出口,输出标准数据。④ 可使问题分析简单化。将复杂的数据分析任务分解成多个步骤来完成,每一层解决特定的问题[16-18]。在形成数据资产的同时,应针对每一层次的数据应用情况,形成相应的数据标准,以规范数据的加工和存储。
2.4 数据共享交换
数据共享交换是数据价值体现的载体。将数据共享到各种应用,可实现数据真正的价值。要了解各应用系统对数据的共享需求,形成标准的数据共享接口,提供实时数据、历史数据、统计数据,以及按区域、时间、关联关系等维度汇总的数据共享服务。应明确规定共享接口访问方式、返回数据类型、格式、含义、频率等信息,同时需要对共享接口进行权限认证,保证数据资产安全,避免数据资产过度共享。最后需要形成数据共享的统一标准。
数据共享形式多样,包括文件共享、数据接口共享、消息队列共享。数据接口协议支持Web Socket、Web Service、Restful API,需要按照标准Json格式进行数据封装[14]。数据的共享访问需要支持不同查询方式,如按子系统、设备、测点等进行查询;同时,应支持按照时间范围请求历史数据;可通过选择不同数据源及聚合数据库表的方式为各个子系统、设备及测点的集成数据生成相关查询接口[19]。
2.5 算法模型管理
算法模型是使煤矿原始数据成为高价值数据的途径。通过数值分析、机器学习、人工智能等算法模型对原始接入数据进行处理、分析、挖掘,获得有用的决策分析信息,形成更有价值的数据资产。
算法模型主要可分为基于规则的算法模型和基于概率的算法模型。基于规则的算法模型在煤矿现场处理过程中使用较多,基于概率的算法模型主要有机器学习模型、传统概率模型等。由于算法模型的多样性和重要性,需要建立单独的模型管理模块。算法模型管理要包括算法开发和测试、模型部署、任务调度、后台日志监控和版本迭代等环节。
3. 智能化煤矿大数据治理技术实践
以小保当煤矿为实践对象,介绍大数据治理实践过程。小保当煤矿随着业务发展和智能化应用创新不断深入,数据融合分析和利用需求逐渐凸显,需要进行统一的数据治理,打通各系统数据链路,进行公司级数据融合加工,建立安全、共享、高效的煤矿数据服务机制。
3.1 基于工业互联网体系的数据治理架构
智能化煤矿大数据治理总体技术架构如图1所示。该架构基于工业互联网体系,底层依赖于工业云平台计算、存储及网络通信能力,主要包含基础设施服务层(Infrastructure as a Service,IaaS)、平台服务层(Platform as a Service,PaaS)及软件服务层(Software as a Service,SaaS)。其中IaaS层部署于煤矿地面机房,通过私有云提供虚拟化、容器化能力;PaaS层包含各类基础平台及数据平台工具;SaaS层主要为煤矿智能化决策应用。该架构向下实现多源异构感知数据的接入、集成和融合,向上为各种煤矿智能化应用开发提供数据服务,可打通感知数据和数据智能应用之间的屏障,实现数据赋能。
该架构功能与智能化煤矿大数据治理基本需求相对应。通过数据接入存储服务将煤矿生产控制、安全监测、经营管理等系统数据统一接入数据混合存储中,接入过程实现必要的协议转换与数据预处理;通过数据清洗与标准化服务提供的多维分析引擎、算法开发引擎实现数据加工,将原始数据转换为体系化的分层数据资产;通过数据共享服务将数据资产以标准接口的方式提供给煤矿总调度(包括生产安全指挥中心、产运销一体化分析中心)、分调度(包括综采工作面控制中心、主煤流控制中心)及其他监控类系统使用,实现数据价值落地。
3.2 大数据采集存储设计
分析小保当煤矿数据来源及基本情况,针对不同系统进行协议接入及数据存储,如图2所示。
生产类系统数据通过自动控制协议、应用系统协议接入,如综采工作面控制系统、综掘工作面控制系统、主运输系统、辅助运输系统、供电系统、给排水系统、智能通风系统、瓦斯监测系统、束管监测系统、水文监测系统、制氮系统、粉尘监测系统等使用EIP、Modbus、OPC等方式接入,存储至Redis实时库。
经营管理、安全类系统数据通过应用系统协议接入,如人员定位系统、安全监控系统、地质保障系统、经营管理系统、安全生产信息系统、生产调度系统等使用WebAPI、JDBC、文件等方式接入,存储至关系型或非关系型数据库中。人员定位系统、安全监控系统采用矿用统一接入协议(例如《煤矿安全监控、井下作业人员、工业视频感知数据接入细则》)对相关系统进行接入的同时实现数据解析,将半结构化的文件数据转换为结构化数据进行处理。
面向智慧园区、工业视频等边缘计算装置,采用数据流、音视频、图形图像等超媒体接入数据的方式,以字节流、文本等形式将数据存储至非关系型数据库。
3.3 大数据清洗与标准化处理
针对小保当煤矿核心数据进行大数据清洗与标准化处理工作,形成煤矿统一数据主题,涵盖综采主题、综掘主题、主运主题、辅运主题、安全主题。定义数据项枚举字典、数据命名标准字典、测点数据浮点型取值类型字典,建立统一数据模型标准。
基于各子系统的清洗规则,采用格式内容清洗、逻辑错误清洗、缺失值清洗、异常值清洗、关联性验证等方法,全面提高数据质量,满足数据存储及后续分析需要。部分数据缺失和异常情况见表1、表2。正常情况下,采煤机启动时(电流非0)牵引电流变化频繁,10 s左右变化1次,因此,当电流超过1 min无变化时,记为数据缺失。对于记录设备状态的数据,0代表停止,1代表启动,除此以外的数据为异常值,因此若数据值为3,则为异常数据,采用异常数据规则进行标注并清洗。
表 1 数据缺失Table 1. Data missing时间 标签 值/A 2023−03−11T00:00:00 主泵.电流 13.9 2023−03−11T00:00:03 主泵.电流 14.5 2023−03−11T00:00:10 主泵.电流 14.2 2023−03−11T00:02:00 主泵.电流 14.1 2023−03−11 T00:02:10 主泵.电流 13.8 表 2 数据异常Table 2. Data exception时间 标签 值 2023−03−11T00:00:00 主泵.状态 1 2023−03−11T03:39:19 主泵.状态 0 2023−03−11T04:00:00 主泵.状态 1 2023−03−11T07:32:49 主泵.状态 0 2023−03−11T08:02:10 主泵.状态 3 数据标准化处理方法:按照命名规范进行数据分段处理,按照编码映射解析出矿井名称、子系统名称、设备名称、区域名称、测点名称等信息。数据命名规范:梳理各子系统的数据实体,形成统一规范的词根库,以词根为依据对数据资产及字段进行命名,词根信息包含唯一编码、英文简称、英文全称、中文全称及词根来源。数据内容规范:对不同类型数据内容制定不同的规范,对于日期、数值、字符串等类型数据,明确定义数据度量单位、字符集、取值范围、数据格式;对于枚举数据,基于子系统原始数据项内容定义数据字典集合,并支持根据业务持续扩展字典范围。
以小保当煤矿数据表命名为例,部分数据表名见表3。数据表的命名需要冗余煤矿、数据来源系统名称的信息,命名格式如下:ods_{公司名称}_{矿井名称}_{数据来源系统}_{自定义内容标签}_{抽取周期+抽取方式}。其中,煤矿名称和工作面编号需要在码表中维护;自定义内容标签尽可能与来源系统命名保持一致;抽取周期标志间隔多长时间抽取一次数据,取值为d表示按天抽取,h表示按小时抽取;抽取方式标志每次抽取是增量抽取还是全量抽取,取值为i表示增量抽取,f表示全量抽取;如果为一次性抽取数据,则忽略抽取周期和抽取方式。
表 3 小保当煤矿数据表命名Table 3. Naming of data table of Xiaobaodang Coal Mine公司名称 系统名称 数据表名 小保当 安全监控 ods_xbd01_safety_monitor_hi 小保当 人力资源 ods_xbd02_human_resources 3.4 大数据资产规划
数据分层是数据资产规划中十分重要的一个环节,利用数据仓库进行数据资产划分存储。统一数据资产结构,提升后续数据处理速度及业务数据变更效率。在对各类数据进行统一规划的过程中,需要制定相应的数据分层规范,开发通用的中间存储层,将聚合统计生成相关业务数据的全流程拆解成多个步骤,分步骤完成数据规划任务。数据资产总体规划如图3所示,子系统数据按照从下往上的顺序流转处理,共分为5层。
1) 原始数据(Operational Data Store,ODS)层。该层主要负责保存从各个子系统直接抽取过来的源数据。由于数据来源复杂,数据格式、命名规范均不一致,且数据量巨大,所以该层数据加载到对应消息总线后,由专门的持久化服务统一保存到指定的Hive表中,一些高维度基础配置信息保存到专用MySQL数据库表中,方便后续数据的清洗和复制,如煤矿基础信息、煤矿工作面基础信息、煤矿巷道信息、矿区人员信息等数据。
2) 业务明细(Data Warehouse Detail,DWD)层。该层是业务数据与原始数据的隔离层,对原始数据进行数据清洗操作,解决原始数据中存在的字段缺失、字段不统一、格式错误等问题。该层的数据一般与ODS层保持相同的数据颗粒度。由于该层数据大部分是随着时间不断增长的事实记录,如日产量、日进尺、日销售量、日洗煤量、矿压、束管监测数据、水文信息等,所以保存这些数据的数据表占用空间通常较大,时序性较强,且查询统计的频率也较高。根据这些特性,主要使用Clickhouse存储该层数据,一方面可满足海量数据存储需求,另一方面也可提高相关数据的实时查询效率。
3) 公共维度(Dimension,DIM)层。该层数据主要保存基础配置信息,将事实表中重复出现的属性抽取、规范出来,用一张表进行管理。目前该层的维度表主要包含高维度、低维度2个部分:① 高维度数据包括煤矿基础信息、煤矿工作面基础信息、煤矿巷道信息、矿区人员信息等煤矿基础业务信息。② 低维度数据主要是日常生产经营中常见属性的配置表,如日期表(存储周、月、季度等属性)、地点表(包含国家、省/州、城市等属性)等。该层数据均为结构性数据,且数据量较小,选择MySQL数据库作为主数据库。为了提升数据聚合计算中对相关联基础配置数据的查询效率,在Redis内存数据库中缓存一份该层数据,并根据实际情况设置过期时间。
4) 业务指标(Data Warehouse Summary,DWS)层。该层主要围绕主题业务模型进行设计,将主题数据存于一张宽表中,通过对DWD层数据进行聚合计算生成,如围绕生产主题数据,对日产量、日进尺进行统计,生成煤矿月度、年度产量、进尺等数据。该层一般包含的属性较多,数据表大部分是宽表形式,为了方便后续业务查询,使用Clickhouse数据库存储数据,并对高频查询数据提供Redis等缓存功能。
5) 应用开发(Application Data Service,ADS)层。该层主要是提供给其他应用系统直接使用的数据,一般存储在Clickhouse、Redis、MySQL等数据库中,部分数据存储在Hive表或Druid数据库中,供数据分析和数据挖掘使用。该层对应用数据统一管理,帮助煤矿管理人员进行辅助决策,具有较高复用价值。
在数据资产规划过程中,要形成数据资产规范,以DWS层为例,该层包括生产分析、安全分析、经营分析、设备分析等各类分析数据,其中生产分析包含工作面割煤分析、割煤阶段分析、支架压力分析等,其规范应根据相应的业务过程制定。以综采工作面设备状态监测数据为例,数据资产规范结构与编码见表4。其中数据格式d23表示23位日期格式,c..20表示最多为20位字符(即10个汉字)长度的中文字符,b表示布尔值,an..20表示最多为20位字母数字字符,an6表示3位字母数字字符,c7表示7位固定长度的中文字符。
表 4 数据资产规范结构与编码Table 4. Data asset specification structure and coding序号 中文名称 英文名称 说明 字段类型 数据
格式是否空值 备注 1 状态采样时间 datatime 测点最近变化的时间点 字符 d23 否 在快照表中作为主键 2 设备名称 device_name 工作面设备名称 字符 c..20 否 3 设备状态 device_status 设备状态 数值 b 否 0−运行;1−停止 4 工作面编号 workface_id 测点区域编码 字符 an..20 否 5 矿井编码 mine_id 矿井编码 字符 an6 否 6 矿井名称 mine_name 矿井名称 字符 c7 否 7 写入时间 create_time 测点请求时间 字符 d23 否 3.5 大数据共享交换服务
数据共享交换服务可为综合智能应用提供统一数据出口,各系统可通过统一数据接口服务获取及时、完整、准确、规范的数据。数据文件共享服务主要基于文件传输协议(File Transfer Protocol,FTP),通过搭建FTP公共服务器管理访问用户及其操作权限,开放数据文件存储虚拟路径,从而实现文件共享。数据接口共享服务主要基于Restful和WebSocket协议,包括共享接口管理、接口运行状况监控及接口访问权限管理等功能。消息队列共享主要基于Kafka系统实现中台数据交换对接,外部系统可通过连接Kafka集群服务并订阅指定主题获取相关数据。
进行数据共享交换需要保证数据查询响应时间。查询数据主要分为实时感知数据和经营管理数据2类。煤矿实时感知数据具有数据量大、更新频率高等特征,主要使用Clickhouse数据库进行存储,并通过物化视图预处理等方式优化查询效率。经营管理类数据一般数据量较小,更新频率较低,主要通过优化MySQL查询索引、去除不必要返回字段等方式提升查询速率[20]。
3.6 算法模型管理
小保当煤矿算法模型的需求主要来源于以下方面:① 数据清洗与标准化。由于原始采集数据质量低且没有统一规范,所以需对原始数据进行清洗。② 数据推理。通过基础数据推理获得相应数据指标,是目前煤矿算法需求最多的部分,如通过每日进尺和地质条件推算得到每日产煤量等指标信息。③ 数据挖掘。数据挖掘能得出更多高维度煤矿数据指标,用来指导煤矿用户进行生产决策。算法模型根据作用不同,输出的结果会存储在对应层,例如数据清洗算法的结果存储在DWD层,安全报警分析、设备状态分析、能效分析等简单统计结果存储于DWS层,液压支架动作预测、大型设备故障诊断、安全预测等复杂算法数据存储于ADS层。
算法模型管理包括以下方面:① 模型开发。包括数据预处理、特征工程、模型训练等环节。② 模型测试。包括结果测试、可靠性测试等,确保模型的可靠性和准确性。③ 模型部署。将模型部署到生产环境中,并提供相应的API接口或服务。④ 模型监控。对模型的运行状态进行实时跟踪和监测,及时发现并解决问题。⑤ 模型更新。根据业务需求或新的数据对模型进行更新和优化。⑥ 模型版本管理。对不同版本的模型进行管理和追踪,以便快速回滚或切换。⑦ 模型文档和知识库。记录模型的相关信息和使用说明,方便其他人员参考和使用。
4. 智能化煤矿大数据治理技术应用
当前基于煤矿大数据治理的应用系统仍然较少,本文从煤矿单系统应用、矿井级应用和公司级系统应用全方面展示智能化煤矿数据治理成果在不同业务场景下的实践应用情况。
4.1 矿井区域风险等级评估应用
矿井区域风险等级评估模型是一个精细化的煤矿安全分析模型,主要原理是结合矿井实际生产环境将矿井按照区域划分,从人、机、环、管4个方面,给予不同区域不同的赋分,实现各区域安全等级综合评价,使安全评估更加贴近实际生产要求,反映区域安全现状。以山西天地王坡煤业有限公司区域风险等级评估为例,应用界面如图4所示。
该模型的实现难点主要包括2个方面:一是煤矿安全子系统众多,数据分散在各系统中,难以将数据及时统一汇集分析;二是煤矿不同系统中位置区域的定义、命名、粒度存在差异,如安全监控系统、井下人员定位系统、安全风险分级管控及隐患排查治理系统都涉及到煤矿安全相关信息,但是各系统对位置区域的编码、名称等不同。
通过大数据治理技术可解决以上难题。对包含安全因素信息的系统进行统计分析,作为各区域打分的依据。各系统的数据经采集、清洗后,作为DWS层的重要数据进行存储,不需要重新计算即可复用,进一步可依据不同系统的安全因素信息进行安全等级评估。通过统一规范数据对井下区域进行统一划分,将区域内数据集中进行融合分析,可解决各系统内相关名称不统一的问题。
4.2 矿井级智能综合管控平台应用
山西天地王坡煤业有限公司下辖某矿井年产量300万t以上,矿井信息化发展水平较高。该矿井采用了基于工业互联网技术研发的矿井智能一体化管控平台,以智能化煤矿数据治理为基础,汇集了13个生产控制类子系统、6个安全监测类子系统和7个智能化综合应用的全部数据,打破了矿井级的数据孤岛[21]。通过数据清洗和处理,完成了多系统数据的统一和规范,通过对算法模型的管理,完成了数据的计算、分析和挖掘,得到了矿企高层领导及生产部、机电部等各部门领导最关注的生产、经营、安全类综合性指标130余个,矿井数据综合利用率以及矿井综合管理效率得到了巨大的提升,助力王坡煤矿通过国家首批智能化示范煤矿建设验收。
4.3 企业级智能综合管控平台应用
小保当煤矿1号矿井和2号矿井的智能化升级已经完成,需要对2个矿井的生产数据、经营管理数据、园区数据等进行分析挖掘,打破企业级数据孤岛,解决企业级数据的融合问题,为企业级的业务提供决策支撑。以本文介绍的数据治理技术为基础,为煤矿开发了集安全、生产、经营、管理等功能的公司级智能综合管控平台,涵盖了“六大中心加一张图”,即综合一张图、智能监控中心、智能管调中心、安全管控中心、运营管控中心、后勤服务中心、决策分析中心。该平台在实现数据统一管理的基础上,完成了各子系统之间的资源共享、数据融合、分析决策及统一调度,提升了公司智能化生产、可视化管理、数字化决策的效率。
5. 结论
1) 分析了智能化煤矿建设过程中数据治理的需求,研究了数据治理过程中的关键技术,包括数据采集存储、数据清洗与标准化处理、数据资产规划、数据共享交换。
2) 介绍了数据治理技术在小保当煤矿的实践,提出了基于工业互联网体系的智能化煤矿大数据治理总体技术架构,对数据采集存储、数据清洗与标准化处理、数据资产规划、数据共享交换、算法模型管理的具体实践细节进行了详细阐述,同时形成了相应的数据标准。
3) 介绍了数据治理技术在系统级、矿井级、公司级智能化煤矿应用系统中的全方位应用。智能化煤矿大数据经过统一数据治理之后,能实现数据融合应用,打破数据孤岛,提升数据质量,形成煤矿独有的数据资产,为煤矿生产运营提供重要价值。
-
表 1 数据缺失
Table 1 Data missing
时间 标签 值/A 2023−03−11T00:00:00 主泵.电流 13.9 2023−03−11T00:00:03 主泵.电流 14.5 2023−03−11T00:00:10 主泵.电流 14.2 2023−03−11T00:02:00 主泵.电流 14.1 2023−03−11 T00:02:10 主泵.电流 13.8 表 2 数据异常
Table 2 Data exception
时间 标签 值 2023−03−11T00:00:00 主泵.状态 1 2023−03−11T03:39:19 主泵.状态 0 2023−03−11T04:00:00 主泵.状态 1 2023−03−11T07:32:49 主泵.状态 0 2023−03−11T08:02:10 主泵.状态 3 表 3 小保当煤矿数据表命名
Table 3 Naming of data table of Xiaobaodang Coal Mine
公司名称 系统名称 数据表名 小保当 安全监控 ods_xbd01_safety_monitor_hi 小保当 人力资源 ods_xbd02_human_resources 表 4 数据资产规范结构与编码
Table 4 Data asset specification structure and coding
序号 中文名称 英文名称 说明 字段类型 数据
格式是否空值 备注 1 状态采样时间 datatime 测点最近变化的时间点 字符 d23 否 在快照表中作为主键 2 设备名称 device_name 工作面设备名称 字符 c..20 否 3 设备状态 device_status 设备状态 数值 b 否 0−运行;1−停止 4 工作面编号 workface_id 测点区域编码 字符 an..20 否 5 矿井编码 mine_id 矿井编码 字符 an6 否 6 矿井名称 mine_name 矿井名称 字符 c7 否 7 写入时间 create_time 测点请求时间 字符 d23 否 -
[1] 王国法,王虹,任怀伟,等. 智慧煤矿2025情景目标和发展路径[J]. 煤炭学报,2018,43(2):295-305. WANG Guofa,WANG Hong,REN Huaiwei,et al. 2025 scenarios and development path of intelligent coal mine[J]. Journal of China Coal Society,2018,43(2):295-305.
[2] 吴群英,蒋林,王国法,等. 智慧矿山顶层架构设计及其关键技术[J]. 煤炭科学技术,2020,48(7):80-91. WU Qunying,JIANG Lin,WANG Guofa,et al. Top-level architecture design and key technologies of smart mine[J]. Coal Science and Technology,2020,48(7):80-91.
[3] 李首滨. 煤炭工业互联网及其关键技术[J]. 煤炭科学技术,2020,48(7):98-108. LI Shoubin. Coal industry internet and its key technologies[J]. Coal Science and Technology,2020,48(7):98-108.
[4] 杜毅博,赵国瑞,巩师鑫. 智能化煤矿大数据平台架构及数据处理关键技术研究[J]. 煤炭科学技术,2020,48(7):177-185. DU Yibo,ZHAO Guorui,GONG Shixin. Study on big data platform architecture of intelligent coal mine and key technologies of data processing[J]. Coal Science and Technology,2020,48(7):177-185.
[5] 毛善君,杨乃时,高彦清,等. 煤矿分布式协同“一张图”系统的设计和关键技术[J]. 煤炭学报,2018,43(1):280-286. MAO Shanjun,YANG Naishi,GAO Yanqing,et al. Design and key technology research of coal mine distributed cooperative "one map" system[J]. Journal of China Coal Society,2018,43(1):280-286.
[6] 王国法,刘峰,孟祥军,等. 煤矿智能化(初级阶段)研究与实践[J]. 煤炭科学技术,2019,47(8):1-36. DOI: 10.13199/j.cnki.cst.2019.08.001 WANG Guofa,LIU Feng,MENG Xiangjun,et al. Research and practice on intelligent coal mine construction(primary stage)[J]. Coal Science and Technology,2019,47(8):1-36. DOI: 10.13199/j.cnki.cst.2019.08.001
[7] 高士岗,高登彦,欧阳一博,等. 煤矿智能一体化辅助生产系统及关键技术[J]. 煤炭科学技术,2020,48(7):150-160. DOI: 10.13199/j.cnki.cst.2020.07.015 GAO Shigang,GAO Dengyan,OUYANG Yibo,et al. Mine intelligent integrated auxiliary production system and key technologies[J]. Coal Science and Technology,2020,48(7):150-160. DOI: 10.13199/j.cnki.cst.2020.07.015
[8] 何敏. 智能煤矿数据治理框架与发展路径[J]. 工矿自动化,2020,46(11):23-27. HE Min. Framework and development path of data governance in intelligent coal mine[J]. Industry and Mine Automation,2020,46(11):23-27.
[9] 温亮,李丹宁. 基于EtherNet/IP的井工煤矿数据治理研究[J]. 煤炭科学技术,2022,50(增刊1):227-232. WEN Liang,LI Danning. Research on data management of coal mine based on EtherNet/IP[J]. Coal Science and Technology,2022,50(S1):227-232.
[10] 李绍俊,杨海军,黄耀欢,等. 基于NoSQL数据库的空间大数据分布式存储策略[J]. 武汉大学学报(信息科学版),2017,42(2):163-169. LI Shaojun,YANG Haijun,HUANG Yaohuan,et al. Geo-spatial big data storage based on NoSQL database[J]. Geomatics and Information Science of Wuhan University,2017,42(2):163-169.
[11] 谭霜,贾焰,韩伟红. 云存储中的数据完整性证明研究及进展[J]. 计算机学报,2015,38(1):164-177. TAN Shuang,JIA Yan,HAN Weihong. Research and development of provable data integrity in cloud storage[J]. Chinese Journal of Computers,2015,38(1):164-177.
[12] 雷德龙,郭殿升,陈崇成,等. 基于MongoDB的矢量空间数据云存储与处理系统[J]. 地球信息科学学报,2014,16(4):507-516. LEI Delong,GUO Diansheng,CHEN Chongcheng,et al. Vector spatial data cloud storage and processing based on MongoDB[J]. Journal of Geo-Information Science,2014,16(4):507-516.
[13] 林文辉. 基于Hadoop的海量网络数据处理平台的关键技术研究[D]. 北京: 北京邮电大学, 2014. LIN Wenhui. Research on key technologies of massive networkdata processing platform based on Hadoop [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[14] 沈姝. NoSQL数据库技术及其应用研究[D]. 南京: 南京信息工程大学, 2012. SHEN Shu. Research on NoSQL database technology and application[D]. Nanjing: Nanjing University of Information Science and Technology, 2012.
[15] 高金标,何利力,邹云阳. 基于分布式存储系统的Hive与Hbase的研究[J]. 工业控制计算机,2015,28(12):44-45,47. DOI: 10.3969/j.issn.1001-182X.2015.12.021 GAO Jinbiao,HE Lili,ZOU Yunyang. Hive and Hbase based on research on Hadoop distributed file system[J]. Industrial Control Computer,2015,28(12):44-45,47. DOI: 10.3969/j.issn.1001-182X.2015.12.021
[16] 温国锋,陈立文. 煤矿安全管理数据仓库的建立与应用研究[J]. 中国矿业,2009,18(1):95-97. WEN Guofeng,CHEN Liwen. On building and applacation of coal mine security management data warehouse[J]. China Mining Magazine,2009,18(1):95-97.
[17] 赵随海. 铁路列车调度指挥系统数据仓库体系结构的研究[J]. 铁道运输与经济,2018,40(12):55-59. ZHAO Suihai. A study on the architecture of data warehouse for the railway train dispatching command system[J]. Railway Transport and Economy,2018,40(12):55-59.
[18] 王霖,方乾,张晓霞,等. 智能化煤矿数据仓库建模方法[J]. 工矿自动化,2022,48(4):5-13. DOI: 10.13272/j.issn.1671-251x.2021120007 WANG Lin,FANG Qian,ZHANG Xiaoxia,et al. Intelligent coal mine data warehouse modeling method[J]. Journal of Mine Automation,2022,48(4):5-13. DOI: 10.13272/j.issn.1671-251x.2021120007
[19] 曾志浩,姚贝,张琼林,等. 基于Hadoop平台的用户行为挖掘[J]. 计算技术与自动化,2015,34(2):100-103. ZENG Zhihao,YAO Bei,ZHANG Qionglin,et al. User behavior mining based on Hadoop platform[J]. Computing Technology and Automation,2015,34(2):100-103.
[20] 马宏伟,吴少杰,曹现刚,等. 煤矿综采设备运行状态大数据清洗建模[J]. 工矿自动化,2018,44(11):80-83. MA Hongwei,WU Shaojie,CAO Xiangang,et al. Big data cleaning modeling of operation status of coal mine fully-mechanized coal mining equipment[J]. Industry and Mine Automation,2018,44(11):80-83.
[21] 张晓霞,陈思宇,苏上海,等. 矿井智能一体化管控平台设计及应用[J]. 煤炭科学技术,2022,50(9):168-178. ZHANG Xiaoxia,CHEN Siyu,SU Shanghai,et al. Design and application of mine intelligent integrated management and control platform[J]. Coal Science and Technology,2022,50(9):168-178.
-
期刊类型引用(14)
1. 谭章禄,王美君,叶紫涵. 智能化煤矿数据治理方法论体系与实施框架. 煤炭科学技术. 2025(01): 284-295 . 百度学术
2. 曹现刚,段雍,王国法,赵江滨,任怀伟,赵福媛,杨鑫,张鑫媛,樊红卫,薛旭升,李曼. 煤矿设备全寿命周期健康管理与智能维护研究综述. 煤炭学报. 2025(01): 694-714 . 百度学术
3. 徐康明. 智能煤矿一体化大数据平台架构及关键技术研究. 中国煤炭. 2025(02): 129-134 . 百度学术
4. 吴丹,冷新宇,梁少博,任昱衡,郭伟鹏. 数字孪生环境中的企业数据治理模式研究. 文献与数据学报. 2025(01): 33-47 . 百度学术
5. 王美君,谭章禄,李慧园,吕晗冰. 智能化煤矿数据治理能力评估与提升策略研究. 矿业科学学报. 2024(01): 106-115 . 百度学术
6. 尚伟栋,王海力,张晓霞,王浩,徐华龙. 基于对象模型的煤矿数据采集融合共享系统. 工矿自动化. 2024(01): 17-24+34 . 本站查看
7. 牛石柱,牛睿港. 冶金矿山数据治理及管控平台建设实践. 现代矿业. 2024(01): 35-39 . 百度学术
8. 王猛,刘树林. 煤矿工作面安全状态评价指标赋权策略研究. 工矿自动化. 2024(02): 153-160 . 本站查看
9. 王志坚. 余吾煤业智能通风系统构建方法及其关键技术研究. 山东煤炭科技. 2024(02): 68-72 . 百度学术
10. 刘超华,张举,李碾峰,卫中宽,王磊,张磊. 无轨胶轮车安全行车监测系统设计. 设备管理与维修. 2024(03): 114-116 . 百度学术
11. 吴雪菲. 元宇宙技术在智能矿山中的探索与应用. 陕西煤炭. 2024(05): 141-143+148 . 百度学术
12. 于涛. 智能化煤矿数据治理技术研究与应用. 中国煤炭. 2024(11): 96-101 . 百度学术
13. 张建锋. 基于工业智能网关的煤矿智能综合管控平台设计及应用研究. 自动化与仪器仪表. 2023(12): 148-151 . 百度学术
14. 杨征,杨小勇,王宇,龚韩君,祝捷,侯刚,杨斐文,方乾. 区域安全评估模型在煤矿安全管理中的应用研究. 工矿自动化. 2023(12): 94-101+129 . 本站查看
其他类型引用(6)