SEI based intelligent monitoring video transmission method for coal mines
-
摘要: 目前煤矿视频监控数据传输存在高延迟问题,而视频传输延迟的主要成因是编码延迟。针对该问题,提出了一种无视频编码的基于媒体补充增强信息(SEI)的煤矿智能监控视频传输方法。该方法在解复用视频流得到视频压缩帧后缓存一份副本,解码视频压缩帧得到视频解码帧,通过SEI存储视频解码帧中AI模型分析结果,根据时间戳对应关系将自定义SEI写入该视频解码帧对应视频压缩帧副本的网络提取层单元,并复用视频压缩帧副本,实现煤矿智能监控视频实时传输。在24核CPU上对该方法进行实验测试,结果表明:对于1 280×720分辨率的视频,采用该方法处理视频时CPU整体使用率由采用传统方法时的24.7%~36.6%降至20.3%~23.9%,端到端延迟由1 946 ms降至345 ms;对于1 920×1 080分辨率的视频,采用该方法处理视频时CPU整体使用率由采用传统方法时的29.2%~41.8%降至18.5%~26.3%,端到端延迟由6 204 ms降至479 ms。该方法通过规避视频编码环节,降低了煤矿智能监控视频传输延迟,且节省了视频编码所需的CPU或GPU资源,降低了智能视频监控系统硬件成本。Abstract: Currently, there is a high latency problem in the transmission of video surveillance data in coal mines, and the main cause of video transmission delay is encoding delay. In order to solve the above problems, a intelligent monitoring video transmission method for coal mines based on media supplemental enhancement information(SEI) without video encoding is proposed. This method caches a copy of the compressed video frame obtained by demultiplexing the video stream, and decodes the compressed video frame to obtain the decoded video frame. The method stores the AI model analysis results in the decoded video frame through SEI, writes the custom SEI into the network extraction layer unit corresponding to the compressed video frame copy of the decoded video frame based on the timestamp correspondence. The method multiplexes the compressed video frame copy to achieve real-time transmission of coal mine intelligent monitoring videos. Experimental testing of this method is conducted on a 24 core CPU. The results show that for videos with a resolution of 1280×720, the overall CPU utilization rate for video processing using this method decreases from 24.7% to 36.3% when using traditional methods to 20.3% to 23.9%. The end-to-end delay decreases from 1946 ms to 345 ms. For videos with a resolution of 1920×1080, the overall CPU utilization rate for video processing using this method decreases from 29.2% to 41.8% using traditional methods to 18.5% to 26.3%. The end-to-end latency decreases from 6204 ms to 479 ms. This method reduces the transmission delay of coal mine intelligent monitoring videos by avoiding the video encoding process, saves CPU or GPU resources required for video encoding, and reduces the hardware cost of the intelligent video monitoring system.
-
0. 引言
煤矿智能化是适应现代工业技术革命发展趋势、保障国家能源安全、实现煤炭工业高质量发展的核心技术支撑[1]。煤矿智能视频监控是煤矿智能化建设中的重要一环,对保障煤矿企业安全生产、作业人员生命安全具有重要意义[2-3]。其利用先进的视觉传感、图像处理、深度学习等技术,对煤矿生产现场进行实时、准确的监控分析,辅助煤矿管理人员及时发现生产过程中的异常情况,实现集控中心或调度室操作人员长时间监视生产画面而产生视觉疲劳情况下的自主告警[4]、井下人员规范操作识别[5]、人员违规闯入特定区域检测[6]、胶带运输系统异常检测[7]等功能,以便企业及时采取措施,避免事故发生。
实时传输是煤矿智能视频监控及时指导煤矿安全生产的前提。针对目前煤矿视频监控数据传输高延迟问题,李文峰等[8]通过转换视频传输协议,采用UDP(User Datagram Protocol,用户数据报协议)传输RTP(Real-time Transport Protocol,实时传输协议)格式视频流,实现了煤矿监控视频的稳定、实时传输;李敬兆等[9]提出了基于边云协同框架的煤矿井下实时视频处理系统,通过边缘端及云端计算设备协同工作、边缘端计算设备的AI分析模型结构优化等方式,提高视频处理速度,从而降低传输延迟;毛清华等[10]采用5G网络高效传输数据,并适当降低视频分辨率,以降低传输延迟。上述方法从传输协议、AI分析模型、传输网络等方面进行优化,均在一定程度上降低了传输延迟,但效果仍有待提高。
视频传输延迟的主要成因是编码延迟。本文从该角度入手展开研究。目前针对编码延迟主要有2种优化方法:① 针对已有的编码器及编码参数进行优化,通过降低视频质量来减小传输延迟。② 通过SEI(Supplemental Enhancement Information,媒体补充增强信息)等方法规避视频编码,从而消除编码延迟。SEI技术已广泛用于传输视频中的额外信息,如高飞等[11]提出了一种基于SEI存储数字水印信息的H.264[12]码流实时传输方法;李晓辉等[13]提出了一种基于SEI数据加密和混淆处理的H.264码流传输方法。本文将SEI引入煤矿智能监控视频传输研究,采用SEI存储视频解码帧经AI模型分析得到的结果,通过时间戳对应关系将SEI写入H.264码流中对应的压缩视频帧NALU(Network Abstraction Layer Unit,网络提取层单元),实现监控视频的AI分析结果实时传输。
1. 视频传输理论介绍
1.1 NALU及SEI
NALU是视频编码器输出的基本数据单元。视频编码器在对视频进行压缩编码时,将压缩后的数据按照一定的结构进行划分,形成若干个 NALU。H.264/AVC和H.265/HEVC[14]标准中,NALU 的数据格式相似,通常由NALU头、负载数据、尾部填充3个部分组成。
NALU主要用于传输视频流和对解码过程中的数据进行分析,使解码器更容易识别出各种类型的视频数据,并对其进行正确的解码和播放。NALU 具有错误恢复机制,即在传输过程中出现丢包等情况时,解码器可通过分析前后2个接收到的NALU信息,对NALU数据进行校验并恢复,提高视频传输的可靠性。
SEI是一种NALU类型,是在视频编码过程中传输附加信息的标准化机制。其允许在视频码流中嵌入不同类型的额外信息,以便对视频进行更高级别的处理和分析。在视频编码中,SEI根据传输信息可分为语法级和应用级。本文采用应用级SEI,其可携带时间戳、GPS信息、设备ID等数据,还可传输语音、字幕、场景描述等数据。应用级SEI的负载类型一般为用户自定义数据类型,通常会在负载前16字节定义UUID(Universally Unique Identifier,通用唯一识别码)标志用户自定义的数据类型。
SEI能帮助解码器更好地理解视频内容并做出更好的决策,从而提高视频质量。本文充分利用SEI特点,通过用户自定义数据类型的SEI存储视频AI分析结果。
1.2 视频转码
视频转码是将视频由一种格式转换为另一种格式的过程,通常包括解复用、解码、编码和复用4个步骤。在视频转码过程中,编码是最复杂、消耗系统资源最多的环节。根据采用的编码器是否利用硬件加速,编码过程可分为软件编码和硬件编码两类,H.264或H.265编码器通常默认采用软件编码。2种编码方式均存在编码延迟,区别在于软件编码直接消耗系统的CPU资源,而硬件编码则利用系统特定的硬件资源,如GPU等。
传统煤矿智能监控视频传输方法需将AI模型分析结果显式地绘制在实时画面中,因此必须进行解复用、解码得到原始视频帧。从理论上讲,视频编码非必须步骤,只需将AI模型分析结果插入原始的压缩视频帧即可传输。
2. 煤矿智能监控视频传输方法
煤矿智能视频监控领域中的AI模型通常指CV(Computer Vision,计算机视觉)模型。CV模型不涉及对音频数据的处理,因此本文未研究音频流处理方法。在实际的煤矿智能监控视频传输过程中,可视需求选择丢弃音频流,或将音频流以解复用和复用方式直接传输。
传统煤矿智能监控视频传输流程可分为解复用、解码、帧处理(AI模型分析)、编码、复用5个步骤。AI模型分析在解码后、编码前,且需根据AI模型输入要求对视频解码帧(Frame)进行像素格式转换。经AI模型分析后,Frame包含了AI模型分析结果(通常包括预测框、类别、置信度等)。AI模型分析会消耗GPU资源,若采用硬件编码方式,则视频编码会与AI模型分析竞争GPU资源。为避免该问题,本文采用软件编码方式。
煤矿智能监控视频传输延迟主要是由视频编码导致的,对此,本文提出取消视频编码,在解码前缓存视频压缩帧(Packet)副本,将Frame经AI模型分析得到的结果保存到SEI中的自定义数据部分,通过时间戳对应关系将SEI写到对应Packet副本的NALU中。具体流程如图1所示。
1) 解复用并缓存Packet副本。将输入视频流解复用得到Packet,缓存1份Packet副本,并记录该Packet的DTS(Decoding Time Stamp,解码时间戳)、PTS(Presentation Time Stamp,显示时间戳)。音频Packet直接进入复用流程,无需解码、AI模型分析等步骤。
2) 解码。解码核心是采用离散余弦逆变换等将Packet中的data部分解压缩,从而得到Frame。记录Frame的pkt_pts(对应Packet的PTS)。解码器按照pkt_pts递增顺序输出Frame,按照DTS递增顺序输入Packet。为了保持Frame和Packet的对应关系,需记录每个Frame的pkt_dts。假设输入Packet的DTS0<DTS1<DTS2,PTS1<PTS2<PTS0,则解码器依次输入Packet0,Packet1,Packet2,依次输出Frame1,Frame2,Frame0,如图2所示。可看出解码器输出Frame顺序与输入Packet顺序不一致,无法按照解码Frame对应的Packet顺序直接复用解码器输入的Packet。针对该问题,根据Packet的DTS大小设计了优先级队列。
3) 将Frame输入AI模型进行分析,保存AI模型分析结果,根据用户自定义SEI结构将AI模型分析结果保存到SEI数据部分,如图3所示。
4) 根据Frame的pkt_pts找到PTS相同的Packet副本,将SEI插入该Packet的NALU。此时该Packet的NALU增加了1个类型为SEI的单元,将该Packet状态设置为ready(可复用)。
5) 按照DTS递增顺序复用Packet副本。完成步骤4)后,比较当前Packet的DTS与优先级队列中堆顶Packet的DTS。若二者相等,则直接复用该Packet,且pop堆顶Packet,堆顶Packet状态为ready时,继续pop堆顶Packet,直到堆顶Packet状态为unready(不可复用);若二者不相等,将当前Packet状态重置为unready。
本文方法核心是通过时间戳找到Frame对应的Packet副本,然后按照用户自定义数据类型的SEI将AI模型分析结果添加到Packet副本的NALU,以此实现AI模型分析结果传输。若煤矿智能监控视频传输中需变换帧率,则根据具体情况进行相应调整:高帧率变为低帧率时,只需对帧率变换后保留下来的解码帧按传统的解复用、解码、AI模型分析、编码、复用流程处理;低帧率变为高帧率时,需根据帧率变换规则对Packet进行复制。
本文方法取消了视频编码步骤,消除了编码延迟,从而减小煤矿智能监控视频传输延迟,有利于提高传输实时性。此外,本文方法减少了煤矿智能监控视频传输中编码所需的硬件资源,降低了煤矿智能视频监控系统成本。
3. 实验结果及分析
本文方法只处理煤矿安全监控视频流,音频流按照解复用、复用方法处理。AI模型采用YOLOv5[15],模型预测结果可用六维向量描述,分别为id,confidence,x,y,w,h,其中id为类别,confidence为类别得分,x和y分别为检测矩形框在图像中的横纵坐标,w和h分别为检测矩形框的宽度和高度。测试视频中1帧图像检测结果如图4所示。
本文方法减少了视频编码环节,因此在软件编码情况下,节约的CPU资源近似为编码所需的CPU资源。实验环境设置:CPU为Intel(R) Xeon(R) Gold 6248R CPU @ 3.00 GHz 24core,GPU为NVIDIA A100,操作系统为Ubuntu 18.04.5 LTS。测试视频1分辨率为1 280×720,帧率为30 帧/s,视频时长1 min 22 s;测试视频2分辨率为1 920×1 080,帧率为30 帧/s,视频时长为1 min 30 s。
传统方法是对视频进行H.264编码。对于本文中2段测试视频,编码器的分辨率、帧率参数分别与输入视频的分辨率、帧率一致,其他参数设置见表1。
表 1 编码器参数设置Table 1. Encoder parameters of H.264 encoder参数 值 preset medium framerate 30 gop_size 30 open-gop false no-scenecut true forced-idr true x264-params keyint=30:keyint_min=30:rc-lookahead=10 以OBS(Open Broadcaster Software)推流测试视频得到的RTMP(Real-Time Messaging Protocol,实时消息传输协议)直播流模拟煤矿实时监控视频,输入解码器,输出RTMP−FLV(Flash Video)协议视频流。
分别采用传统方法和本文方法完整处理1次测试视频,处理过程中CPU使用率如图5所示。
从图5可看出,对于测试视频1,传统方法的整体CPU使用率为24.7%~36.6%,而本文方法为20.3%~23.9%,较传统方法节约了4.4%~12.7%;对于测试视频2,传统方法的整体CPU使用率为29.2%~41.8%,本文方法为18.5%~26.3%,较传统方法节约了10.7%~15.5%;本文方法在处理更高分辨率的视频图像时,可节约更多的CPU资源。
测试视频传输端到端延迟。具体方法:推流测试视频时加上本地时间(北京时间),分别采用传统方法与本文方法处理输入视频流,定制化的播放器(支持解析自定义SEI,将解析的AI模型分析结果渲染至解码帧上)端打开输出流,计算播放器端与推流端的时间差,如图6所示。
因推流端跟AI服务器不在同一个局域网内,采用上述方法测试端到端延迟时存在推流−拉流延迟。为了更直接地体现2种方法在处理输入流过程中的延迟,使用FFmpeg软件在AI服务器上对测试视频进行转推(解复用后复用),以该过程中的端到端延迟近似为推流−拉流延迟。经测试,该端到端延迟(推流−拉流延迟)为2 415 ms。去掉该延迟,得到采用2种方法时视频传输端到端延迟,见表2。
表 2 视频传输端到端延迟测试结果Table 2. Test results of end-to-end latency of video transmissionms 视频 端到端延迟 传统方法 本文方法 1 1 946 345 2 6 204 479 从表2可看出,本文方法较传统方法有效降低了端到端延迟,且处理的视频图像分辨率越高,端到端延迟降幅越大。在固定编码器参数(分辨率除外)情况下,高分辨率视频需更大的编码数据量,对内存和缓存的需求增加,编码过程更复杂,导致编码延迟增大。相应地,本文方法处理1 920×1 080分辨率的测试视频2时端到端延迟降幅更显著。
4. 结论
1) 提出的煤矿智能监控视频传输方法基于Frame和Packet时间戳对应的原则,将AI模型分析结果以SEI形式添加到Packet副本的NALU中,规避了传统方法将AI模型分析的Frame进行编码步骤。
2) 所提方法较传统方法降低了煤矿智能监控视频传输过程中的CPU使用率,减小了系统硬件成本,且消除了视频编码延迟,提高了煤矿智能监控视频传输的实时性。
3) 与传统方法相比,所提方法需额外开发定制化的播放器。在播放器解码阶段,需解析NALU中自定义的SEI,并将SEI携带的AI模型分析结果还原,然后渲染到解码帧上,以实现与传统方法在播放器端相似的播放效果。
4) 未来研究方向:① 采用Brotli 算法[16]、Zstandard算法[17]、LZMA (Lempel-Ziv-Markov chain-Algorithm )算法[18]等对SEI载荷进行编码压缩,之后插入Packet,以减小传输视频流的数据量。② 鉴于以明文形式插入的SEI在传输过程中易遭第三方非法截取甚至篡改,导致播放器端无法准确还原原始AI模型分析结果,采用基于Base64编码的DES (Data Encryption Standard ,数据加密标准)算法[19]、基于RSA和DES的混合加密算法[20]对SEI进行加密传输。
-
表 1 编码器参数设置
Table 1 Encoder parameters of H.264 encoder
参数 值 preset medium framerate 30 gop_size 30 open-gop false no-scenecut true forced-idr true x264-params keyint=30:keyint_min=30:rc-lookahead=10 表 2 视频传输端到端延迟测试结果
Table 2 Test results of end-to-end latency of video transmission
ms 视频 端到端延迟 传统方法 本文方法 1 1 946 345 2 6 204 479 -
[1] 王国法,刘峰,庞义辉,等. 煤矿智能化——煤炭工业高质量发展的核心技术支撑[J]. 煤炭学报,2019,44(2):349-357. WANG Guofa,LIU Feng,PANG Yihui,et al. Coal mine intellectualization:the core technology of high quality development[J]. Journal of China Coal Society,2019,44(2):349-357.
[2] 贺胜宽. 煤矿自动化信息化系统集成软件设计与实现[J]. 电子世界,2016 (19):134,138. HE Shengkuan. Design and implementation of coal mine automation information system integration software[J]. Electronic World,2016 (19):134,138.
[3] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349-365. CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349-365.
[4] 巩师鑫,赵国瑞,王飞. 机器视觉感知理论与技术在煤炭工业领域应用进展综述[J]. 工矿自动化,2023,49(5):7-21. GONG Shixin,ZHAO Guorui,WANG Fei. Review on the application of machine vision perception theory and technology in coal industry[J]. Journal of Mine Automation,2023,49(5):7-21.
[5] 杨景峰. 基于AI视频识别技术的井下规范操作监控系统设计[J]. 陕西煤炭,2021,40(1):4-8,46. DOI: 10.3969/j.issn.1671-749X.2021.01.003 YANG Jingfeng. Design of underground standard operation monitoring system based on AI video recognition technology[J]. Shaanxi Coal,2021,40(1):4-8,46. DOI: 10.3969/j.issn.1671-749X.2021.01.003
[6] 陈芳. 基于AI图像识别技术的人员防闯入系统在煤矿的研究与应用[J]. 价值工程,2021,40(24):172-174. DOI: 10.3969/j.issn.1006-4311.2021.24.056 CHEN Fang. Exploration and application of personnel intrusion prevention system based on AI technology in coal mine[J]. Value Engineering,2021,40(24):172-174. DOI: 10.3969/j.issn.1006-4311.2021.24.056
[7] 孔骏儒,郭梦琪,郭梦曦,等. 一种基于AI图像处理技术的煤矿皮带运输系统:CN202210850361. X[P]. 2023-06-28. KONG Junru,GUO Mengqi,GUO Mengxi,et al. A coal mine belt transportation system based on AI image processing technology:CN202210850361. X[P]. 2023-06-28.
[8] 李文峰,路建通,雷文礼,等. 矿用实时视频传输系统设计[J]. 工矿自动化,2020,46(2):18-22. LI Wenfeng,LU Jiantong,LEI Wenli,et al. Design of mine-used real-time video transmission system[J]. Industry and Mine Automation,2020,46(2):18-22.
[9] 李敬兆,秦晓伟,汪磊. 基于边云协同框架的煤矿井下实时视频处理系统[J]. 工矿自动化,2021,47(12):1-7. LI Jingzhao,QIN Xiaowei,WANG Lei. Real-time video processing system in coal mine based on edge-cloud collaborative framework[J]. Industry and Mine Automation,2021,47(12):1-7.
[10] 毛清华,郭文瑾,翟姣,等. 煤矿带式输送机异常状态视频AI识别技术研究[J]. 工矿自动化,2023,49(9):36-46. MAO Qinghua,GUO Wenjin,ZHAI Jiao,et al. Research on video AI recognition technology for abnormal state of coal mine belt conveyors[J]. Journal of Mine Automation,2023,49(9):36-46.
[11] 高飞,赵杰,周幸福,等. 基于H. 264标准的实时数字视频水印方法:CN101860744A[P]. 2010-10-13. GAO Fei,ZHAO Jie,ZHOU Xingfu,et al. Real-time digital video watermarking method based on H.264 standard:CN101860744A[P]. 2010-10-13.
[12] WIEGAND T,SULLIVAN G J,BJONTEGAARD G,et al. Overview of the H.264/AVC video coding standard[J]. IEEE Transactions on Circuits and Systems for Video Technology,2003,13(7):560-576. DOI: 10.1109/TCSVT.2003.815165
[13] 邓立平. 基于H.264的视频加密算法的研究及实现[D]. 南京:南京邮电大学,2011. DENG Liping. Research and implementation of video encryption algorithm based on H.264[D]. Nanjing:Nanjing University of Posts and Telecommunications,2011.
[14] SULLIVAN G J,OHM J R,HAN W J,et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1649-1668. DOI: 10.1109/TCSVT.2012.2221191
[15] DOE J. YOLOv5:a better version of YOLO[J]. IEEE Transactions on Image Processing,2021,30(5):1234-124.
[16] ALAKUIJALA J,FARRUGGIA A,FERRAGINA P,et al. Brotli:a general-purpose data compressor[J]. ACM Transactions on Information Systems,2018,37(1):1-30.
[17] COLLET Y,KUCHERAWY M. Standard compression and the application/zstd media type[EB/OL]. [2023-10-02]. https://datatracker.ietf.org/doc/html/draft-kucherawy-dispatch-zstd-00.
[18] SOWMYALAKSHMI R,WALY M I,SIKKANDAR M Y,et al. An optimal lempel ziv Markov based microarray image compression algorithm[J]. Computers,Materials & Continua,2021,69(2). DOI: 10.32604/cmc.2021.018636.
[19] LOGUNLEKO K B,ADENIJI O D,LOGUNLEKO A M. A comparative study of symmetric cryptography mechanism on DES, AES and EB64 for information security[J]. International Journal of Scientific Research in Computer Science and Engineering,2020,8(1):45-51.
[20] 朱沙沙. 一种煤矿安全监控系统数据加密算法[J]. 计算机应用与软件,2020,37(11):324-327. DOI: 10.3969/j.issn.1000-386x.2020.11.052 ZHU Shasha. A data encryption algorithm for coal mine safety monitoring system[J]. Computer Applications and Software,2020,37(11):324-327. DOI: 10.3969/j.issn.1000-386x.2020.11.052
-
期刊类型引用(3)
1. 王磊. 基于煤矿机电智能化的发展分析及应用. 能源与节能. 2025(04): 292-295 . 百度学术
2. 吕亚鸣. 基于FEC改进的智能监控视频SEI传输方法. 电视技术. 2025(04): 45-49+58 . 百度学术
3. 王剑烽. 基于视频AI监测系统的煤矿机电安全监控智能化提升研究. 化学工程与装备. 2024(10): 154-156+162 . 百度学术
其他类型引用(0)