多特征融合的煤矿网络加密恶意流量检测方法

霍跃华; 赵法起; 吴文昊

doi:10.13272/j.issn.1671-251x.17944

多特征融合的煤矿网络加密恶意流量检测方法

霍跃华^{1, 2,},
赵法起¹,
吴文昊¹

1.
中国矿业大学(北京) 机电与信息工程学院, 北京　100083
2.
中国矿业大学(北京) 网络与信息中心, 北京　100083

基金项目: 国家重点研发计划项目（2016YFC0801800）。

详细信息

作者简介:
霍跃华（1981— ），男，山西晋中人，高级工程师，硕士研究生导师，主要研究方向为网络安全、通信与监测，E-mail： huoyh@cumtb.edu.cn

中图分类号: TD67
计量
- 文章访问数: 281
- HTML全文浏览量: 50
- PDF下载量: 21
出版历程
- 收稿日期: 2022-05-07
- 修回日期: 2022-07-11
- 网络出版日期: 2022-07-11
- 刊出日期: 2022-08-08

Multi-feature fusion based encrypted malicious traffic detection method for coal mine network

1.
School of Mechanical Electronic and Information Engineering, China University of Mining and Technology-Beijing, Beijing 100083, China
2.
Network and Information Center, China University of mining and Technology-Beijing, Beijing 100083, China

摘要

摘要: 针对煤矿网络面临由恶意软件所产生的安全传输层协议（TLS）加密恶意流量威胁和检测过程加密流量误报率高的问题，提出了一种基于多特征融合的煤矿网络TLS加密恶意流量检测方法。分析了TLS加密恶意流量特征多元异构的特点，提取出煤矿网络TLS加密恶意流在传输过程中的连接特征、元数据和TLS加密协议握手特征，利用流指纹方法构造煤矿网络TLS加密流量特征集，并对该特征集中的特征进行标准化、独热编码和规约处理，从而得到一个高效样本集。采用决策树（DT）、K近邻（KNN）、高斯朴素贝叶斯（GNB）、L2逻辑回归（LR）和随机梯度下降（SGD）分类器5个子模型对上述特征集进行检验。为提高检测模型的鲁棒性，结合投票法原理将5个分类器子模型结合，构建了多模型投票（MVC）检测模型：将5个分类器子模型作为投票器，每个分类器子模型单独训练样本集，按照少数服从多数原则进行投票，得到每个样本的最终预测值。实验验证结果表明：所构建的特征集降低了样本集维度，提高了TLS加密流量检测效率。DT分类器和KNN分类器在数据集上表现最好，达到了99%以上的准确率，但是它们存在过拟合风险；LR分类器和SGD分类器子模型虽然也达到了90%以上的识别准确率，但这2个子模型的误报率过高；GNB分类器子模型表现最差，准确率只有82%，但该子模型具有误报率低的优势。MVC检测模型在数据集上准确率和召回率达99%以上，误报率为0.13%，提高了加密恶意流量的检出率，加密流量检测误报率为0，其综合性能优于其他分类器子模型。
- 煤矿网络 /
- 安全入侵检测 /
- 安全传输层协议 /
- TLS /
- 加密恶意流量 /
- 机器学习 /
- 多特征融合 /
- 多模型投票检测
Abstract: The coal mine network is faced with the threat of malicious traffic encrypted by the transport layer security protocol (TLS) generated by malicious software and the high false alarm rate of encrypted traffic during detection. In order to solve the above problems, a multi-feature fusion malicious traffic detection method for coal mine network TLS encryption is proposed. The characteristics of multiple and heterogeneous malicious traffic features of TLS encryption are analyzed. The connection features, metadata and TLS encrypted protocol handshake features of coal mine network TLS encrypted malicious traffic in the transmission process are extracted. A coal mine network TLS encrypted traffic characteristic set is constructed by using a flow fingerprint method. The features in the feature set are standardized, one-hot encoded and normalized, so as to obtain an efficient sample set. Five sub-models of decision tree (DT), K-nearest neighbor (KNN), Gaussian Naive Bayes (GNB), L2 logistic regression (LR) and stochastic gradient descent (SGD) classifiers were used to test the above feature sets. In order to improve the robustness of the detection model, combined with the principle of the voting method, five classifier sub-models are combined to construct a muti-model voting classifier (MVC) detection model. Five classifier sub-models are used as voters. Each classifier sub-model trains the sample set separately, and votes according to the principle of minority obeying majority to get the final prediction value of each sample. The experimental results show that the proposed feature set reduces the dimension of the sample set and improves the detection efficiency of TLS encrypted traffic. DT classifier and KNN classifier perform best on the data set, reaching more than 99% accuracy. But they have the risk of overfitting. Although the LR classifier and SGD classifier sub-models have also achieved recognition accuracy of more than 90%, the false positive rate of these two sub-models is too high. The GNB classifier sub-model performs the worst, with an accuracy of 82%. But it has the advantage of low false-positive rate. The accuracy and recall rate of that MVC detection model on a data set is more than 99%, the false alarm rate is 0.13%. The detection rate of encrypted malicious traffic is improved, and the false alarm rate of encrypted traffic detection is 0. And the comprehensive performance of the MVC detection model is better than that of other classifier sub-models.
- coal mine network /
- security intrusion detection /
- secure transport layer protocol /
- TLS /
- encrypted malicious traffic /
- machine learning /
- multi-feature fusion /
- multi-model voting classifier detection

HTML全文

0. 引言

滚动轴承作为煤矿机械设备中的重要部件之一^[1]，其工作环境复杂，易出现损坏，从而影响煤矿生产系统的可靠性和安全性。因此，对煤矿机械设备中的滚动轴承进行智能故障诊断具有重要意义^[2]。

随着机器学习的快速发展，深度学习被引入到机械设备智能故障诊断中，并取得了一定的成果。但基于深度学习的机械设备故障诊断模型却要求训练集和测试集满足独立同分布的原则，当训练集与测试集分布不同时，会出现模型泛化能力差的问题^[3]。由于工业过程中大量数据样本难以被标记，且滚动轴承又常常工作在变工况情况下，导致实际故障诊断中缺少或无法获取与待测数据分布相同的大量带标签训练数据^[4]。

鉴此，研究者们将迁移学习（Transfer Learning，TL）引入到故障诊断中，以实现不同工况之间的知识迁移。文献[5]使用少量的目标域标记数据对源域数据训练好的模型进行微调，以此获得目标域数据的故障诊断模型。文献[6]提出了一种基于参数迁移的改进最小二乘支持向量机迁移学习方法，实现了目标域中已知标签数据较少条件下的滚动轴承故障诊断。文献[7]通过改进TrAdaBoost方法对源域样本重新加权，提升了分类准确率。

但上述方法均需目标域含少量带标签样本，当目标域完全不含标签时，模型泛化能力变弱且诊断准确率下降。无监督的域适应方法可通过学习源域和目标域的共享特征来减小域之间的差异，进而解决目标域数据不含标签的问题^[8]。文献[9]设计了一种跨设备故障诊断模型，该模型主要引入最大均值差异(Maximum Mean Discrepancies， MMD)公式来度量源域和目标域的特征分布差异，进而帮助一维卷积神经网络（Convolutional Neural Networks，CNN）学习源域和目标域的共享特征，达到无监督迁移学习的目的。文献[10]在MMD公式的基础上，提出多核最大均值差异（Multi Kernel−Maximum Mean Discrepancies， MK−MMD）距离，将带标签源域样本和无标签目标域样本的特征同时映射到希尔伯特空间进行度量，产生域间分布差异损失，进而使模型选择更多源域与目标域相似特征。文献[11]提出一种基于域对抗学习策略的故障诊断网络，该网络学习通用的域不变特征，以提高模型的泛化能力。文献[12]在域分类器中添加Wasserstein距离，通过域对抗训练，实现了对无标签目标域样本的分类。但目前研究大部分集中于源域与目标域的边缘分布对齐，缺乏对数据间条件分布的研究，导致一些目标域样本被错误分类。

为避免一些目标域样本被错误分类，本文提出一种基于深度自适应迁移学习网络（Deep Adaptive Transfer Learning Network，DATLN）的诊断模型，并将其应用到滚动轴承的故障诊断中。首先，结合多尺度卷积神经网络（Multiscale Convolutional Neural Network, MSCNN）和双向长短时记忆网络（Bi−directional Long Short−Term Memory，BiLSTM）提取振动信号中多尺度和蕴含时间信息的故障特征；其次，构建域自适应模块，引入域对抗（Domain Adversarial，DA）训练，结合自适应联合分布（Adaptive Joint Distribution，AJD）度量机制，动态地减少源域和目标域数据的边缘分布和条件分布差异；最后，使用带标签的源域样本和无标签的目标域样本训练网络，进而实现对无标签目标域样本进行分类。

1. 基本理论

1.1 迁移学习

假设在机械装备中存在工况A和工况B 2个工况，工况A为有标签的源域：${D}_{s}={\left\{{x}_{i}, {y}_{i}\right\}}_{i=1}^{s}， i= $$ 1,2,\cdots , s$，s为源域的样本个数，工况B为无标签的目标域：$ {D_t} = \left\{ {{x_j}} \right\}_{j = 1}^t,j = 1,2, \cdots ,t $，t为目标域的样本个数，其中，x_i，x_j分别为第i个源域样本和第j个目标域样本，y_i为第i个源域样本的标签，源域和目标域的特征空间及类别空间均相同。但由于数据产生机制的影响，源域D_s和目标域D_t的边缘分布和条件分布均不同。因此，无监督迁移学习的目标就是利用带标签源域D_s的先验知识建立一个模型，以实现无标签目标域D_t的样本分类，如图1所示。

图 1 迁移学习

Figure 1. Transfer learning

下载: 全尺寸图片幻灯片

1.2 CNN特征提取

CNN结构主要包含卷积层、池化层和全连接层^[13]。卷积层通过卷积核对输入信号进行卷积操作，并进行故障特征提取，池化层对卷积层提取的数据进行降维，全连接层负责将卷积层和池化层处理后的数据进一步拟合。

卷积层中同一层卷积核的权值相同，即

$$ c_a^l = f\left( {\sum\limits_{d = 1}^m {c_d^{l - 1}*{\boldsymbol{w}}_a^l + {\boldsymbol{b}}_a^l} } \right)$$

(1)

式中：$ c_a^l $为l层输出的第a个特征量；f为激活函数；$c_d^{l - 1}$为$ l - 1 $层输出的第d个特征量，$d=1,2,\cdots,m $，m为层的特征量总个数；*为卷积运算；$ {\boldsymbol{w}}_a^l $为l层输出的第a个卷积核权重矩阵；$ {\boldsymbol{b}}_a^l $为l层输出的第a个卷积核偏置矩阵。

池化层采用最大值池化函数，获得池化区域的最大值：

$$ p_{\max }^{l(o,g)} = \mathop {\max }\limits_{(g - 1)h \leqslant e{\kern 1pt} \leqslant gh} \left\{ {{u^{l(o,e)}}} \right\} $$

(2)

式中：h为卷积核宽度；u^l(o,e)为第l层中第o个特征张量的第e个神经元，$l=1,2,\cdots,g $，g为层的总数，o = 1,2, …, q，q为特征张量总个数。

全连接层中采用Softmax函数将全连接层获取的特征数据映射到(0，1)，并将映射结果输出，实现故障分类。

$$ {r_n} = {{\exp \left( {{\phi _n}} \right)} \mathord{\left/ {\vphantom {{\exp \left( {{\phi _n}} \right)} {\sum\limits_{n = 1}^C {\exp \left( {{\phi _n}} \right)} }}} \right. } {\sum\limits_{n = 1}^C {\exp \left( {{\phi _n}} \right)} }} $$

(3)

式中：r_n为输出结果为第n类的概率；${\phi_n} $为全连接层第n类的输出值；C为数据集类别个数。

1.3 BiLSTM网络

故障信息属于时序信号，而BiLSTM网络适用于提取时序信号的时间关联性。关注故障信息的时间关联性可进一步有效提高深度网络的特征挖掘能力。BiLSTM网络由前向LSTM层和反向LSTM层组成，如图2所示，其中W_u为输入神经元数据，k_u为输出神经元结果，u为神经元个数。因此，可在前向和后向2个方向上学习故障特征的时间信息，且2个方向均具有独立的隐藏层。

图 2 BiLSTM网络结构

Figure 2. Structure of BiLSTM network

下载: 全尺寸图片幻灯片

2. 滚动轴承故障诊断模型

2.1 特征提取

当滚动轴承损伤时，受振动耦合影响，故障特征呈现多尺度性^[14]。由于MSCNN网络能自适应提取信号中的多尺度特征，从而可获得一些重要的故障特征信息^[15]；而BiLSTM网络能从前后2个方向学习振动信号的时间信息，使特征信息更加全面。本文结合MSCNN网络和BiLSTM网络的优势构建MSCNN−BiLSTM网络，网络结构如图3所示。

图 3 MSCNN−BiLSTM网络

Figure 3. MSCNN-BilSTM network

下载: 全尺寸图片幻灯片

从图3可看出，MSCNN网络由通道1、通道2和汇聚层组成，MSCNN网络通道1选用较大卷积核，以给予卷积网络足够大的感受野，进而捕获振动信号的低频特征；MSCNN网络通道2采用较小卷积核，以保持卷积网络提取局部特征的优势；汇聚层对通道1和通道2的输出结果进行特征融合，且只做张量乘积运算，因此没有设定超参数。对MSCNN−BiLSTM网络参数进行反复实验和调整，结果见表1。MSCNN网络采用一维卷积运算，通道1和通道2中的卷积核尺寸分别为15和5。为将每层卷积输出值大小保持在一定范围内，对每个卷积层输出的结果进行批量归一化处理。此外，分别在卷积层2和卷积层6后面接入最大池化层，采用最大池化操作降低数据维度，并将最大池化层的核（池化窗口）尺寸和步长设置为2；为保证每个通道输出尺寸为（128，4），分别在卷积层4和卷积层8后面引入自适应最大池化层。BiLSTM网络包含1层结构，神经元个数为256。

表 1 MSCNN−BiLSTM网络参数

Table 1. Parameters of MSCNN-BiLSTM network

网络	层类型	核尺寸/步长	核数量	激活函数	输入尺寸	输出尺寸
MSCNN网络通道1	卷积层1	15/1	16	ReLU	（1，1 024）	（16，1 010）
	卷积层2	15/1	32	ReLU	（16，1 010）	（32，996）
	最大池化层	2/2	—	—	（32，996）	（32，498）
	卷积层3	15/1	64	ReLU	（32，498）	（64，484）
	卷积层4	15/1	128	ReLU	（64，484）	（128，470）
	自适应最大池化层	—	—	—	（128，470）	（128，4）
MSCNN网络通道2	卷积层5	5/1	16	ReLU	（1，1 024）	（16，1 020）
	卷积层6	5/1	32	ReLU	（16，1 020）	（32，1 016）
	最大池化层	2/2	—	—	（32，1 016）	（32，508）
	卷积层7	5/1	64	ReLU	（32，508）	（64，504）
	卷积层8	5/1	128	ReLU	（64，504）	（128，500）
	自适应最大池化层	—	—	—	（128，500）	（128，4）
MSCNN网络汇聚层	汇聚层	—	—	—	（128，4），（128，4）	（128，4）
BiLSTM网络	BiLSTM层	—	—	ReLU	（128，4）	（256）

下载: 导出CSV

| 显示表格

2.2 DATLN诊断模型

基于DATLN的滚动轴承故障诊断模型如图4所示，DATLN由状态识别和域自适应2个模块组成。状态识别模块包括MSCNN−BiLSTM特征提取网络、瓶颈层和标签分类器，其中瓶颈层和标签分类器中均采用一层全连接网络，瓶颈层神经元个数为256，标签分类器的神经元个数为样本标签类别数。域自适应模块由域分类器和AJD度量组成，其中域分类器采用3层全连接网络，前2层引入Relu激活函数，最后1层采用Sigmoid函数对样本进行域分类。域分类器参数见表2。

图 4 滚动轴承故障诊断模型

Figure 4. Model of rolling bearing fault diagnosis

下载: 全尺寸图片幻灯片

表 2 域分类器参数

Table 2. Parameters of domain classifier

层次	神经元个数
全连接层1	256
全连接层2	128
全连接层3	2

下载: 导出CSV

| 显示表格

DATLN模型诊断流程如下：

（1）通过不重叠采样对源域和目标域的故障数据进行分割，获取固定长度的样本，利用归一化技术使样本值保持在一定范围内，完成对原始振动信号的预处理。

（2）在状态识别模块中，利用源域样本进行有标签监督训练，通过标签分类器识别滚动轴承的状态；在域自适应模块中，域分类器结合AJD度量，动态减小源域与目标域的边缘分布和条件分布差异，进而实现源域与目标域样本自适应匹配的目的。

2.3 目标优化函数

DATLN诊断模型的损失函数L包含标签分类损失L_P、域分类损失L_D及自适应联合分布损失L_J3个部分。

$$ L\left( {{\theta _{\text{G}}},{\theta _{\text{B}}},{\theta _{\text{P}}},{\theta _{\text{D}}}} \right) = {L_{\text{P}}} + {L_{\text{J}}} + {L_{\text{D}}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} $$

(4)

式中：θ_G为特征提取网络参数；θ_B为瓶颈层参数；θ_P为标签分类器参数；θ_D为域分类器参数。

2.3.1 标签分类器损失

标签分类器通过有监督方式对状态识别模块进行训练，识别源域样本的故障类别。采用交叉熵损失函数衡量标签分类损失。

$$ {L_{\text{P}}} = - \frac{1}{s}\sum\limits_{{x_i} \in {D_s}} {\sum\limits_{x_i}^E {{T_{{x_{i \to E}}}}\lg {G_{\text{P}}}} } \left( {{G_{\text{B}}}\left( {{G_{\text{G}}}\left( {{x_i}} \right)} \right)} \right) $$

(5)

式中：E为源域样本x_i所属类别；T为每类样本的概率；G_P为标签分类器；G_B为瓶颈层；G_G为特征提取网络。

2.3.2 域分类损失

域分类器用于区分样本的所属域，通过最大化域分类损失来约束MSCNN−BiLSTM网络，进而提取更多与目标域相似的特征。设源域样本的域标签为0，目标域样本的域标签为1，此时，域分类属二分类，因此域分类损失采用二元交叉熵损失函数衡量。

$$ {L_{\text{D}}} = - \lambda \left[ {\frac{1}{{s + t}}\sum\limits_{{x_i} \in {D_s} \cup {D_t}} {{L_{\rm{B}}}\left( {{G_{\text{D}}}\left( {{G_{\text{G}}}\left( {{x_i}} \right)} \right),{D_i}} \right)} } \right] $$

(6)

$$ \lambda =\dfrac{1-{\text{ exp}}\left( { - 10\beta } \right)} {1 + {\text{exp}}\left( { - 10\beta } \right)} $$

(7)

式中：$\lambda $为权衡参数；L_B为二元交叉熵损失函数；G_D是域分类器；D_i为输入样本的域标签；β为当前迭代次数与总迭代次数的比。

2.3.3 自适应联合分布损失

迁移成分分析（Transfer Component Analysis，TCA）^[16]主要用于减小源域、目标域之间的边缘分布差异。TCA通常只关注全局分布对齐，而忽略了源域和目标域同一类别子域间的条件分布差异，从而导致迁移效果不理想。为此，本文采用联合域适配（Joint Domain Adaptation，JDA）算法^[17]，引入自适应联合分布(Adaptive Joint Distribution，AJD)损失，通过衡量域间联合分布距离，以减小源域和目标域的边缘分布与条件分布差异。由于目标域没有样本标签，使用标签分类器预测结果作为伪标签，参与条件分布差异计算过程。假设进行源域、目标域特征对齐时边缘分布(P)和条件分布(Q)的权值相同，可将域间联合分布距离定义为

$$ {f'}\left( {{D_{{s}}},{D_{{t}}}} \right) \approx {f'}\left( {{P_{{s}}},{P_{{t}}}} \right) + {f'}\left( {{Q_{{s}}},{Q_{{t}}}} \right) $$

(8)

式中：${f'} $为映射函数；P_s，P_t分别为源域、目标域的边缘分布； Q_s ，Q_t分别为源域、目标域的条件分布。

在现实情况中边缘分布和条件分布的重要性是随着迭代训练动态变化的，所以只有动态地计算边缘分布和条件分布在迁移过程中的各自占比，才能有效地提升迁移诊断精度。引入衡量因子α，诊断模型每次迭代训练完成后，重新评估边缘分布和条件分布的重要性。

$$ {L_{\rm{J}}} = (1 - \alpha ){f'}({P_s},{P_t}) + \alpha {f'}({Q_s},{Q_t}) $$

(9)

$$ \alpha = \frac{{{f'}({Q_s},{Q_t})}}{{{f'}({P_s},{P_t}) + {f'}({Q_s},{Q_t})}} $$

(10)

边缘分布与条件分布均采用MMD公式计算，即

$$ {v}\left( {{x_s},{x_t}} \right) = {\left\| {\frac{1}{s}\sum\limits_{i = 1}^s {\varphi \left( {{x_i}} \right) - \frac{1}{t}\sum\limits_{j = 1}^t {\varphi \left( {{x_j}} \right)} } } \right\|_H} $$

(11)

式中：v为源域与目标域分布的距离；$\varphi $为高斯核函数；H为希尔伯特空间。

3. 实验与分析

为验证MSCNN−BiLSTM网络抗噪性能及域自适应模块的迁移能力，进行抗噪实验和迁移实验。在无域自适应模块下，对MSCNN−BiLSTM网络进行抗噪性能测试，并在凯斯西储大学（CWRU）轴承数据集上与LeNet−5，MSCNN和BiLSTM进行对比实验。在Spectra Quest机械故障实验台的实测数据集上，采用Baseline，TCA和域对抗神经网络(Domain Adversarial Neural Network，DANN)^[11]3种方法与本文DA+AJD域自适应方法进行对比，其中Baseline方法只采用状态识别模块，即运用源域训练好的模型对无标签目标域样本直接进行诊断。

3.1 抗噪实验

采用CWRU轴承数据集在4种不同强度的噪声环境中做抗噪实验。实验装置如图5所示。测试台主要由1.5 kW电动机、功率测试计和控制设备等组成。实验轴承型号为SKF6205，在0，0.75，1.5，2.25 kW 4种不同负载下采集实验轴承数据，采样频率为12 kHz。每种负载下均包含正常状态及内圈、外圈、滚动体3种故障损伤状态，损伤直径分别为 0.177 8，0.355 6 ，0.533 4 mm，共计10种状态。为方便表述，以0负载下采集的数据集为例，见表3。

图 5 CWRU轴承数据采集系统

Figure 5. CWRU bearing data acquisition system

下载: 全尺寸图片幻灯片

表 3 0负载下数据集

Table 3. Date set under 0 load

损伤直径/mm	损伤位置	标记
−	正常	N
0.177 8	内圈	IR07
0.355 6	内圈	IR14
0.533 4	内圈	IR21
0.177 8	外圈	OR07
0.355 6	外圈	OR14
0.533 4	外圈	OR21
0.177 8	滚动体	B07
0.355 6	滚动体	B14
0.533 4	滚动体	B21

下载: 导出CSV

| 显示表格

3.1.1 数据预处理

为避免样本之间有重叠区域，通过不重叠采样对原始信号进行分割，如图6所示。每个样本包含1 024个点，产生的样本数量见表4。

图 6 不重叠采样

Figure 6. Non-overlapping sampling

下载: 全尺寸图片幻灯片

表 4 CWRU样本集

Table 4. CWRU sample set

状态	标签	样本数
状态	标签	0	0.75 kW	1.5 kW	2.25 kW
N	0	100	100	100	100
IR07	1	100	100	100	100
B07	2	100	100	100	100
OR07	3	100	100	100	100
IR14	4	100	100	100	100
B14	5	100	100	100	100
OR14	6	100	100	100	100
IR21	7	100	100	100	100
B21	8	100	100	100	100
OR21	9	100	100	100	100

下载: 导出CSV

| 显示表格

采样完成后，通过归一化公式将每个样本的数据映射到同一尺度。

$$ {z_{\text{η}} } = \frac{{{z_{\text{φ}} } - \mu }}{\sigma } $$

(12)

式中：$ {z_{\text{η }}} $为归一化后的样本数据；${z_{\text{φ}} }$为输入的样本数据；$ \mu $为样本数据的平均值；$ \sigma $为样本数据的标准差。

在实际工程环境中，传感器接收的信号通常无法避免噪声干扰，故在原始故障数据中添加不同信噪比(Signalto Noise Ratio，SNR)的高斯白噪声，以测试MSCNN−BiLSTM网络在噪声环境下的抗噪性能，信噪比公式为

$$ N = 10{\rm{lg}} ({{{X_{\rm{S}}}} \mathord{\left/ {\vphantom {{{X_{\rm{S}}}} {{X_{\rm{n}}}}}} \right. } {{X_{\rm{n}}}}}) $$

(13)

式中：X_S为原始信号；X_n为噪声信号。

加入不同强度噪声后，为直接观察振动信号的变化，从滚动轴承的10 种状态里随机选取正常状态与内圈故障（IR07）状态进行展示，如图7、图8所示。与原始信号相比，添加噪声后，其周期性冲击分量明显减弱，噪声强度随着信噪比的降低而增强，深度网络对轴承故障的辨识将更加困难。在加入不同强度噪声后，其他状态下振动信号的变化趋势与正常状态和内圈故障（IR07）状态下的变化趋势一致。

图 7 正常状态下振动信号变化

Figure 7. Vibration signal changes under the normal state

下载: 全尺寸图片幻灯片

图 8 内圈故障（IR07）状态下振动信号变化

Figure 8. Vibration signal changes in the inner fault （IR07） state

下载: 全尺寸图片幻灯片

3.1.2 实验结果及分析

为验证MSCNN−BiLSTM网络的优势，将其分别与LeNet−5，MSCNN和BiLSTM进行比较。实验使用Radam优化器，学习率为0.01，迭代次数为100，批量为64，训练集与测试集比例是4∶1。为测试本文特征提取网络在单负载场景下对轴承故障特征的提取能力，分别在4种不同负载下实验。为消除偶然误差，采用5次实验结果的平均值评估网络性能，如图9−图12所示。

图 9 无噪声环境下对比实验结果

Figure 9. Comparison of experimental results in noiseless environment

下载: 全尺寸图片幻灯片

图 12 3 dB噪声环境下对比实验结果

Figure 12. Comparison of experimental results in 3 dB environment

下载: 全尺寸图片幻灯片

图 11 5 dB噪声环境下对比实验结果

Figure 11. Comparison of experimental results in 5 dB environment

下载: 全尺寸图片幻灯片

从图9可看出，在无噪声环境下，MSCNN−BiLSTM网络的识别准确率均达到99%以上，在4种网络中准确率最高，可见其具有较好的特征提取能力。从图10−图12可看出，4种网络的识别准确率随着噪声强度的增强而降低。为综合比较每种网络的性能，在3，5，10 dB噪声下，计算每种网络在4种负载下识别准确率的平均值，结果见表5。

表 5 不同网络的平均识别准确率

Table 5. Average accuracy of different network

网络	平均识别准确率/%
网络	3 dB	5 dB	10 dB
LeNet−5	90.74	93.83	95.42
MSCNN	95.57	96.89	97.14
BiLSTM	89.10	92.58	96.99
MSCNN−BiLSTM	98.43	99.00	99.16

下载: 导出CSV

| 显示表格

图 10 10 dB噪声环境下对比实验结果

Figure 10. Comparison of experimental results in 10 dB environment

下载: 全尺寸图片幻灯片

由表5可知，在3，5，10 dB噪声环境下，MSCNN−BiLSTM网络的平均识别准确率分别为98.43%，99.00%和99.16%，比LeNet−5，MSCNN和BiLSTM的平均识别准确率均高，实验结果证明了MSCNN−BiLSTM网络具有较好的抗噪声干扰性能。

为了观察迭代过程中网络的故障诊断性能变化，随机选取0负载下的数据集，在无噪声和3 dB噪声2种环境下进行迭代，测试集识别结果分别如图13和图14所示。可看出MSCNN−BiLSTM网络在无噪声环境和3 dB噪声环境下，均最先达到收敛且波动较小。

图 13 无噪声环境下0负载测试集识别结果

Figure 13. Identification results of 0 load test set in noise-free environment

下载: 全尺寸图片幻灯片

图 14 3 dB噪声环境下0负载测试集识别结果

Figure 14. Identification results of 0 load test set in 3 dB environment

下载: 全尺寸图片幻灯片

3.2 迁移实验

为验证域自适应模块的迁移能力，采用机械故障模拟台收集轴承故障数据，并进行对比实验。实验台主要由电动机转速控制器、旋转轴和传感器等组成，其结构如图15所示。实验轴承的型号为ER12KCL，在轴承转速为1 400，1 800，2 200 r/min下收集实验数据。轴承的状态包括正常、内圈故障、外圈故障和滚动体故障4种。所有实验轴承的直径均为19.05 mm。通过电动机驱动端轴承座上的加速度传感器，采集实验数据，采样频率为12.8 kHz，采集时间为10 s。

图 15 机械故障模拟实验台

Figure 15. Machinery fault simulator

下载: 全尺寸图片幻灯片

3.2.1 数据预处理

通过不重叠采样对原始振动信号进行分割，生成的每个样本包含1 024个点，正常、内圈故障、外圈故障、滚动体故障状态各125个样本。采样完成后，对每个样本进行归一化处理。

3.2.2 迁移实验结果及分析

由于3 dB噪声环境对滚动轴承故障诊断干扰最为严重，故选取3 dB噪声环境做迁移实验。将1 400，1 800，2 200 r/min 3种转速下的数据集表示为A，B，C，分别用A to B, A to C, B to A, B to C, C to A, C to B表示3种数据集之间的迁移。例如A to B表示源域是转速1 400 r/min下得到的数据集，目标域是转速1 800 r/min下得到的数据集。选取80%的带标签源域样本和80%的无标签目标域样本作为训练集，剩余20%的无标签目标域样本作为测试集。实验使用Radam优化器，学习率为0.01，批量为64，每组实验迭代次数为100，采用5次实验结果的平均值评估方法性能。迁移实验结果如图16所示。

图 16 3 dB噪声环境下迁移结果

Figure 16. Transfer results of 3 dB environment

下载: 全尺寸图片幻灯片

从图16可看出，在6组不同迁移任务中，DA+AJD方法的识别准确率均高于其他3种方法。

为综合比较4种方法的迁移能力，取每种方法在6组不同迁移任务下测试结果的平均值进行对比，结果见表6。

表 6 每种方法的平均识别准确率

Table 6. Average results of different methods

方法	平均识别准确率/%
Baseline	75.90
TCA	85.38
DANN	87.19
DA+AJD	97.36

下载: 导出CSV

| 显示表格

由表6可知，DA+AJD方法的平均识别准确率比Baseline，TCA和DANN方法的平均识别准确率分别高21.46%，11.98%，10.17%。

为更加直观地对比每种方法的识别结果，随机选取迁移任务C to B，通过混淆矩阵将目标域B测试集结果可视化，结果如图17所示。可看出DA+AJD方法仅有1个样本被错误识别，而Baseline，TCA和DANN分别有23，14和12个样本被错误识别，表明基于域适应的DA+AJD方法具备更好的故障迁移诊断性能。

图 17 迁移任务C to B的测试集混淆矩阵

Figure 17. Test dataset confusion matrix of transfer task C to B

下载: 全尺寸图片幻灯片

为进一步验证DA+AJD方法的优势，利用t−SNE算法将4种方法处理后的源域与目标域特征样本进行可视化，其效果如图18所示。可看出在Baseline方法下，较多目标域的内圈故障和外圈故障特征样本被错误对齐到源域的滚动体故障特征样本区域；TCA方法虽在全局域对齐方面有优势，但未能有效减小条件分布差异，导致仍有一些目标域的内圈故障、外圈故障和滚动体故障特征样本被错误对齐到源域的其他故障特征样本区域；DANN方法也未能有效减少源域与目标域分布差异；DA+AJD方法只有少量目标域的滚动体故障和外圈故障特征样本被错误对齐到源域的内圈故障特征样本区域，说明DA+AJD方法有效地减少了源域与目标域的边缘分布和条件分布差异，达到了更好的特征样本对齐效果。

图 18 迁移任务C to B的t-SNE特征可视化

Figure 18. T-SNE characteristic visualization of transfer task C to B

下载: 全尺寸图片幻灯片

4. 结论

为提高噪声背景下深度网络提取轴承信号特征的能力，结合MSCNN网络与BiLSTM网络的优势构建MSCNN−BiLSTM网络作为特征提取网络；为减小源域与目标域数据分布差异，设计了DA训练结合AJD度量机制。

（1）抗噪实验表明：在无噪声环境下，MSCNN−BiLSTM网络的识别准确率均达到99%以上，说明其具有较好的特征提取能力；MSCNN−BiLSTM，LeNet−5，MSCNN和BiLSTM的识别准确率随着噪声强度的增强而降低；在3，5，10 dB噪声环境下，MSCNN−BiLSTM网络的平均识别准确率比LeNet−5，MSCNN和BiLSTM 网络的平均识别准确率高，说明MSCNN−BiLSTM网络具有较好的抗噪声干扰性能；MSCNN−BiLSTM网络在无噪声环境和3 dB噪声环境下，均最先达到收敛且波动较小。

（2）迁移实验表明：在无标签目标域数据集上，DA+AJD方法的平均识别准确率为97.36%，均高于Baseline，TCA，DANN的识别准确率；在测试集混淆矩阵上，DA+AJD方法仅有1个样本被错误识别，表明基于域适应的DA+AJD方法具备更好的故障迁移诊断性能；利用t−SNE算法对处理后的源域与目标域特征样本进行可视化，DA+AJD方法只有少量目标域的滚动体故障和外圈故障特征样本被错误对齐到源域的内圈故障特征样本区域，说明DA+AJD方法有效地减少了源域与目标域的边缘分布和条件分布差异，达到了更好的特征样本对齐效果。

（3）实验中已对滚动轴承振动数据在不同工况下进行迁移实验，但未对不同类型轴承振动数据进行可迁移性分析。下一步将在可迁移性分析的基础上，利用实验室获得的数据对实际工程设备进行迁移诊断。

图 1 TLS握手过程

Figure 1. TLS handshake process

下载: 全尺寸图片幻灯片

图 2 基于多特征融合的TLS加密恶意流量检测方法流程

Figure 2. Flow of TLS encrypted malicious traffic detected method based on multi-feature fusion

下载: 全尺寸图片幻灯片

图 3 pcap流量包处理流程

Figure 3. Flow of pcap traffic packages processing

下载: 全尺寸图片幻灯片

图 4 模型错误分类TLS加密样本数量

Figure 4. Number of TLS encrypted samples misclassified by models

下载: 全尺寸图片幻灯片

表 1 ε_i≥0.01的前28个特征和特征重要性权重

Table 1 Top 28 features with ε_i≥0.01 and feature importance weights

特征	ε_i	特征	ε_i
后向数据包负载最大值	0.092 9	后向数据包头字节数值	0.016 5
conn_state 连接状态	0.092 3	前向第1个数据包的窗口大小（字节）	0.016 2
前向数据包负载标准差	0.071 9	有1个有效载荷的后向数据包数量	0.015 5
后向数据包负载平均值	0.061 6	流中2个连续数据包之间到达时间的最小值	0.014 3
后向数据包负载最小值	0.058 6	前向数据包负载最大值	0.013 9
流数据包负载平均值	0.048 6	前向所有到达时间的标准差	0.013 4
目的端口号	0.042 6	流中2个连续数据包之间到达时间的最大值	0.012 8
流数据包负载最大值	0.034 7	1个TCP流中出现ACK标志的总数	0.012 8
后向数据包头字节数最大值	0.027 5	前向2个连续数据包之间到达时间的最大值	0.011 3
前向子流有效负载平均数量	0.023 6	前向子流数据包数量平均值	0.011 2
后向2个连续数据包之间到达时间的方差	0.023 1	后向数据包头字节综述	0.0110
后向与前向数据包数量之比	0.022 3	后向第1个数据包的窗口大小（字节）	0.010 5
后向2个连续数据包之间到达时间的最大值	0.021 8	后向2个连续数据包之间到达时间的平均值	0.010 2
后向子流数据包数量平均值	0.016 5	源端口号	0.010 0

下载: 导出CSV

表 2 流量数据集

Table 2 Traffic dataset

流量名称	类型	样本量/条	总量/条
恶意流量	Yakes	209 611	657 198
	Conficker	80 751
	Cridex	90 130
	Dridex	41 622
	Sality	146 366
	Razy	68 047
	TrickBot	20 671
良性流量	Normal	314 733	314 733

下载: 导出CSV

表 3 模型性能对比

Table 3 Comparison of the performance of models

模型	A/%	R/%	F₁/%	W/%
DT	99.88	99.85	99.84	0.09
KNN	99.88	99.86	99.83	0.10
GNB	82.93	51.87	68.17	0.17
LR	97.69	99.21	96.81	3.13
SGD	94.35	98.73	92.49	8.00
MVC	99.66	99.28	99.52	0.13

下载: 导出CSV

参考文献(20)

[1]	刘雨燕,宋燕. 新一代信息技术助力智慧矿山建设[J]. 煤炭技术,2021,40(2):184-186. LIU Yuyan,SONG Yan. New-generation information technology helps construction of smart mines[J]. Coal Technology,2021,40(2):184-186.
[2]	陈燕. 煤矿网络安全风险与防范标准研究[J]. 中国石油和化工标准与质量,2019,39(18):5-6. DOI: 10.3969/j.issn.1673-4076.2019.18.002 CHEN Yan. Study on safety risk and prevention standard of coal mine network[J]. China Petroleum and Chemical Standard and Quality,2019,39(18):5-6. DOI: 10.3969/j.issn.1673-4076.2019.18.002
[3]	谭靓洁,李永飞,吴琼. 基于区块链的煤矿安监云数据安全访问模型研究[J]. 工矿自动化,2022,48(5):93-99. DOI: 10.13272/j.issn.1671-251x.2022030023 TAN Liangjie,LI Yongfei,WU Qiong. Research on security access model of coal mine safety supervision cloud data based on blockchain[J]. Journal of Mine Automation,2022,48(5):93-99. DOI: 10.13272/j.issn.1671-251x.2022030023
[4]	SEAN G. Nearly half of malware now use TLS to conceal communications[EB/OL]. [2022-03-21]. https://news.sophos.com/en-us/2021/04/21/nearly-half-of-malware-now-use-tls-to-conceal-communications/.
[5]	袁钦献. 加密网络流量分析关键技术研究与开发[D]. 西安: 西安电子科技大学, 2019. YUAN Qinxian. Research and development of key technology for encrypted network traffic analysis[D]. Xi'an: Xidian University, 2019.
[6]	ANDERSON B, MCGREW D. Identifying encrypted malware traffic with contextual flow data[C]//Proceedings of the 2016 ACM workshop on artificial intelligence and security, Vienna, 2016: 35-46.
[7]	翟明芳,张兴明,赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报,2020,6(3):66-77. ZHAI Mingfang,ZHANG Xingming,ZHAO Bo. Survey of encrypted malicious traffic detection based on deep learning[J]. Chinese Journal of Network and Information Security,2020,6(3):66-77.
[8]	TORROLEDO I, CAMACHO L D, BAHNSEN A C. Hunting malicious TLS certificates with deep neural networks[C]//Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security, Toronto, 2018: 64-73.
[9]	YU Tangda, ZOU Futai, LI Linsen, et al. An encrypted malicious traffic detection system based on neural network[C]//2019 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery（CyberC）, Guilin, 2019: 62-70.
[10]	REZAEI S,LIU X. Deep learning for encrypted traffic classification:an overview[J]. IEEE Communications Magazine,2019,57(5):76-81. DOI: 10.1109/MCOM.2019.1800819
[11]	ANDERSON B,PAUL S,MCGREW D. Deciphering malware's use of TLS (without decryption)[J]. Journal of Computer Virology and Hacking Techniques,2016,14(1):1-17.
[12]	ANDERSON B, MCGREW D. Machine learning for encrypted malware traffic classification: accounting for noisy labels and non-ntationarity[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, 2017: 1723-1732.
[13]	骆子铭,许书彬,刘晓东. 基于机器学习的TLS恶意加密流量检测方案[J]. 网络与信息安全学报,2020,6(1):77-83. LUO Ziming,XU Shubin,LIU Xiaodong. Scheme for identifying malware traffic with TLS data based on machine learning[J]. Chinese Journal of Network and Information,2020,6(1):77-83.
[14]	BARUT O, ZHU R, LUO Y, et al. TLS encrypted application classification using machine learning with flow feature engineering[C]//The 10th International Conference on Communication and Network Security, Tokyo, 2020: 32-41.
[15]	鲁刚,郭荣华,周颖,等. 恶意流量特征提取综述[J]. 信息网络安全,2018(9):1-7. LU Gang,GUO Ronghua,ZHOU Ying,et al. Review of malicious traffic feature extraction[J]. Netinfo Security,2018(9):1-7.
[16]	康鹏, 杨文忠, 马红桥. TLS协议恶意加密流量识别研究综述[J/OL]. 计算机工程与应用: 1-21[2022-03-21]. http://kns.cnki.net/kcms/detail/11.2127.TP.20220308.0853.002.html. KANG Peng, YANG Wenzhong, MA Hongqiao. TLS malicious encrypted traffic identification research [J/OL]. Computer Engineering and Applications: 1-21[2022-03-21]. http://kns.cnki.net/kcms/detail/11.2127.TP.20220308.0853.002.html.
[17]	王洋,陈紫儿,柳瑞春,等. 基于决策树算法的网络加密流量识别方法[J]. 长江信息通信,2021,34(11):15-17. DOI: 10.3969/j.issn.1673-1131.2021.11.005 WANG Yang,CHEN Zi'er,LIU Ruichun,et al. Network encryption traffic identification method based on decision tree algorithm[J]. Changjiang Information & Communications,2021,34(11):15-17. DOI: 10.3969/j.issn.1673-1131.2021.11.005
[18]	张心语,张秉晟,孟泉润,等. 隐私保护的加密流量检测研究[J]. 网络与信息安全学报,2021,7(4):101-113. ZHANG Xinyu,ZHANG Bingsheng,MENG Quanrun,et al. Study on privacy preserving encrypted traffic detection[J]. Chinese Journal of Network and Information,2021,7(4):101-113.
[19]	PEDREGOSA F,VAROQUAUX G,GRAMFORT A,et al. Scikit-learn:machine learning in Python[J]. Machine Learning,2011,12:2825-2830.
[20]	GARCIA S,GRILL M,STIBOREK J,et al. An empirical comparison of botnet detection methods[J]. Computers & Security,2014,45:100-123.

施引文献(9)

期刊类型引用(4)

1.	邬娜，王健，杨建伟，吕百乐. 变工况及小样本情况下滚动轴承故障迁移学习方法综述. 科学技术与工程. 2024(10): 3939-3951 . 百度学术
2.	陈金路，张翔宇，郑向远，邹荔兵，杨如嫣. 海上风电智能运维关键技术与发展建议. 海洋开发与管理. 2023(06): 117-128 . 百度学术
3.	蒲米世行，丁浩，杨孟，陈建忠. 基于卷积神经网络的隧道风机健康状态诊断研究. 机电工程. 2023(07): 1121-1129 . 百度学术
4.	王克定，李敬兆，石晴，胡迪. 基于深度迁移学习的矿井通风机轴承故障诊断. 机床与液压. 2023(22): 209-214 . 百度学术

其他类型引用(5)

资源附件(0)

图(4) / 表(3)

计量

文章访问数: 281
HTML全文浏览量: 50
PDF下载量: 21
被引次数: 9

0. 引言
1. 基本理论
1.1 迁移学习
1.2 CNN特征提取
1.3 BiLSTM网络
2. 滚动轴承故障诊断模型
2.1 特征提取
2.2 DATLN诊断模型
2.3 目标优化函数
2.3.1 标签分类器损失
2.3.2 域分类损失
2.3.3 自适应联合分布损失
3. 实验与分析
3.1 抗噪实验
3.1.1 数据预处理
3.1.2 实验结果及分析
3.2 迁移实验
3.2.1 数据预处理
3.2.2 迁移实验结果及分析
4. 结论

0. 引言
1. 基本理论
1.1 迁移学习
1.2 CNN特征提取
1.3 BiLSTM网络
2. 滚动轴承故障诊断模型
2.1 特征提取
2.2 DATLN诊断模型
2.3 目标优化函数
2.3.1 标签分类器损失
2.3.2 域分类损失
2.3.3 自适应联合分布损失
3. 实验与分析
3.1 抗噪实验
3.1.1 数据预处理
3.1.2 实验结果及分析
3.2 迁移实验
3.2.1 数据预处理
3.2.2 迁移实验结果及分析
4. 结论

参考文献(20)

施引文献(9)

资源附件(0)

多特征融合的煤矿网络加密恶意流量检测方法

作者简介: 霍跃华（1981— ），男，山西晋中人，高级工程师，硕士研究生导师，主要研究方向为网络安全、通信与监测，E-mail： huoyh@cumtb.edu.cn

计量

出版历程

Multi-feature fusion based encrypted malicious traffic detection method for coal mine network

0. 引言

1. 基本理论

1.1 迁移学习

1.2 CNN特征提取

1.3 BiLSTM网络

2. 滚动轴承故障诊断模型

2.1 特征提取

2.2 DATLN诊断模型

2.3 目标优化函数

2.3.1 标签分类器损失

2.3.2 域分类损失

2.3.3 自适应联合分布损失

3. 实验与分析

3.1 抗噪实验

3.1.1 数据预处理

3.1.2 实验结果及分析

3.2 迁移实验

3.2.1 数据预处理

3.2.2 迁移实验结果及分析

4. 结论

期刊类型引用(4)

其他类型引用(5)

计量

出版历程

目录

0. 引言

1. 基本理论

1.1 迁移学习

1.2 CNN特征提取

1.3 BiLSTM网络

2. 滚动轴承故障诊断模型

2.1 特征提取

2.2 DATLN诊断模型

2.3 目标优化函数

2.3.1 标签分类器损失

2.3.2 域分类损失

2.3.3 自适应联合分布损失

3. 实验与分析

3.1 抗噪实验

3.1.1 数据预处理

3.1.2 实验结果及分析

3.2 迁移实验

3.2.1 数据预处理

3.2.2 迁移实验结果及分析

4. 结论

作者简介:
霍跃华（1981— ），男，山西晋中人，高级工程师，硕士研究生导师，主要研究方向为网络安全、通信与监测，E-mail： huoyh@cumtb.edu.cn