多特征融合的煤矿网络加密恶意流量检测方法

霍跃华; 赵法起; 吴文昊

doi:10.13272/j.issn.1671-251x.17944

多特征融合的煤矿网络加密恶意流量检测方法

霍跃华^{1, 2,},
赵法起¹,
吴文昊¹

1.
中国矿业大学(北京) 机电与信息工程学院, 北京　100083
2.
中国矿业大学(北京) 网络与信息中心, 北京　100083

基金项目: 国家重点研发计划项目（2016YFC0801800）。

详细信息

作者简介:
霍跃华（1981— ），男，山西晋中人，高级工程师，硕士研究生导师，主要研究方向为网络安全、通信与监测，E-mail： huoyh@cumtb.edu.cn

中图分类号: TD67
计量
- 文章访问数: 281
- HTML全文浏览量: 50
- PDF下载量: 21
出版历程
- 收稿日期: 2022-05-07
- 修回日期: 2022-07-11
- 网络出版日期: 2022-07-11
- 刊出日期: 2022-08-08

Multi-feature fusion based encrypted malicious traffic detection method for coal mine network

1.
School of Mechanical Electronic and Information Engineering, China University of Mining and Technology-Beijing, Beijing 100083, China
2.
Network and Information Center, China University of mining and Technology-Beijing, Beijing 100083, China

摘要

摘要: 针对煤矿网络面临由恶意软件所产生的安全传输层协议（TLS）加密恶意流量威胁和检测过程加密流量误报率高的问题，提出了一种基于多特征融合的煤矿网络TLS加密恶意流量检测方法。分析了TLS加密恶意流量特征多元异构的特点，提取出煤矿网络TLS加密恶意流在传输过程中的连接特征、元数据和TLS加密协议握手特征，利用流指纹方法构造煤矿网络TLS加密流量特征集，并对该特征集中的特征进行标准化、独热编码和规约处理，从而得到一个高效样本集。采用决策树（DT）、K近邻（KNN）、高斯朴素贝叶斯（GNB）、L2逻辑回归（LR）和随机梯度下降（SGD）分类器5个子模型对上述特征集进行检验。为提高检测模型的鲁棒性，结合投票法原理将5个分类器子模型结合，构建了多模型投票（MVC）检测模型：将5个分类器子模型作为投票器，每个分类器子模型单独训练样本集，按照少数服从多数原则进行投票，得到每个样本的最终预测值。实验验证结果表明：所构建的特征集降低了样本集维度，提高了TLS加密流量检测效率。DT分类器和KNN分类器在数据集上表现最好，达到了99%以上的准确率，但是它们存在过拟合风险；LR分类器和SGD分类器子模型虽然也达到了90%以上的识别准确率，但这2个子模型的误报率过高；GNB分类器子模型表现最差，准确率只有82%，但该子模型具有误报率低的优势。MVC检测模型在数据集上准确率和召回率达99%以上，误报率为0.13%，提高了加密恶意流量的检出率，加密流量检测误报率为0，其综合性能优于其他分类器子模型。
- 煤矿网络 /
- 安全入侵检测 /
- 安全传输层协议 /
- TLS /
- 加密恶意流量 /
- 机器学习 /
- 多特征融合 /
- 多模型投票检测
Abstract: The coal mine network is faced with the threat of malicious traffic encrypted by the transport layer security protocol (TLS) generated by malicious software and the high false alarm rate of encrypted traffic during detection. In order to solve the above problems, a multi-feature fusion malicious traffic detection method for coal mine network TLS encryption is proposed. The characteristics of multiple and heterogeneous malicious traffic features of TLS encryption are analyzed. The connection features, metadata and TLS encrypted protocol handshake features of coal mine network TLS encrypted malicious traffic in the transmission process are extracted. A coal mine network TLS encrypted traffic characteristic set is constructed by using a flow fingerprint method. The features in the feature set are standardized, one-hot encoded and normalized, so as to obtain an efficient sample set. Five sub-models of decision tree (DT), K-nearest neighbor (KNN), Gaussian Naive Bayes (GNB), L2 logistic regression (LR) and stochastic gradient descent (SGD) classifiers were used to test the above feature sets. In order to improve the robustness of the detection model, combined with the principle of the voting method, five classifier sub-models are combined to construct a muti-model voting classifier (MVC) detection model. Five classifier sub-models are used as voters. Each classifier sub-model trains the sample set separately, and votes according to the principle of minority obeying majority to get the final prediction value of each sample. The experimental results show that the proposed feature set reduces the dimension of the sample set and improves the detection efficiency of TLS encrypted traffic. DT classifier and KNN classifier perform best on the data set, reaching more than 99% accuracy. But they have the risk of overfitting. Although the LR classifier and SGD classifier sub-models have also achieved recognition accuracy of more than 90%, the false positive rate of these two sub-models is too high. The GNB classifier sub-model performs the worst, with an accuracy of 82%. But it has the advantage of low false-positive rate. The accuracy and recall rate of that MVC detection model on a data set is more than 99%, the false alarm rate is 0.13%. The detection rate of encrypted malicious traffic is improved, and the false alarm rate of encrypted traffic detection is 0. And the comprehensive performance of the MVC detection model is better than that of other classifier sub-models.
- coal mine network /
- security intrusion detection /
- secure transport layer protocol /
- TLS /
- encrypted malicious traffic /
- machine learning /
- multi-feature fusion /
- multi-model voting classifier detection

HTML全文

0. 引言

煤炭素有“工业粮食”之称，在我国的能源化工领域有着不可替代的作用。伴随着互联网和移动信息的发展，煤炭行业的矿井环境监测、安全巡查和远程控制等正积极向网络化、信息化和智能化转型。这些转型提高了煤矿生产效率，但也为煤矿网络的安全性带来了挑战。

网络是煤矿产业（煤炭产业或煤炭行业）智能化建设和数据传输链路的关键。当前我国煤矿网络存在如下问题^[1-2]：网络结构不合理，分配虚拟网络时易产生漏洞；使用大量非标准的通信协议，危险性高；煤矿网络采用典型环形以太网结构，威胁易扩散；从业人员缺乏网络安全意识，预防和处理网络风险能力差。针对上述问题，煤矿网络采取了安全措施，但现有安全措施存在不同程度的问题：防火墙技术无法阻止内部攻击；虚拟专用网技术费用高且在特定情况下易被攻破；安全扫描技术存在滞后性且消耗资源多；基于区块链的访问控制安全性研究不足^[3]。因此，研究我国煤矿网络的安全入侵检测具有重要的实际意义。

当前煤矿网络面临严重的恶意软件攻击，例如APP病毒攻击^[2]，它通过伪造网络地址来阻碍煤矿网络与外网的正常通信，进而影响生产安全。2020 年，在通过 Internet 与远程系统通信中，有23%的恶意软件使用安全传输层协议（Transport Layer Security，TLS）加密；到2021年，这一比例接近46%，这个趋势使得煤矿网络的智能化建设也面临严峻的威胁^[4]。为了提高网络的安全性，各界学者对TLS加密恶意流量识别进行了研究，大致经历了3个阶段：第1阶段，采用解密技术破解TLS加密协议，但该方法计算开销大、成本高，且侵犯了用户的隐私。第2阶段，在非解密的前提下，观测网络出口的加密通信流量（443端口），利用已掌握的数据资源，对加密流量进行判别^[5]，但现在恶意软件会绕过443端口使用其他端口实现入侵，降低了该方法的有效性。第3阶段，非解密分析流量包，通过提取流量包中的数据元特征、TLS明文特征^[5]、DNS（Domain Name System，域名系统）和HTTP（Hyper Text Transfer Protocol，超文本传输协议）上下文数据流等特征，利用机器学习和深度学习^[6-10]的方法实现非解密的TLS加密恶意流量检测，其中，特征的选取和数据的质量对这一类方法检测结果具有决定性影响^[11-12]。上述3个阶段的研究都存在加密流量误报率高的问题，此问题加大了从业人员的工作量。

针对煤矿网络面临由恶意软件所产生的TLS加密恶意流量威胁和检测过程加密流量误报率高的问题，提出了一种基于多特征融合的煤矿网络加密恶意流量检测方法。首先提取流的连接特征、元数据和TLS握手特征，构建特征集。其次，利用特征工程方法进行规约处理。最后，构建投票模型训练样本集，实现高效的TLS加密恶意流量检测。

1. TLS加密协议

TLS加密协议位于开放式系统互联（Open System Interconnection，OSI）7层参考模型中的第3层和第4层之间，为网络中的任意2个通信应用程序提供加密服务。该协议由TLS记录协议和TLS握手协议构成。TLS记录协议主要用来识别TLS中的消息类型，并对每条消息的完整性进行保护和验证。TLS握手协议负责在客户端与服务器在交换数据之前，协商建立加密信道，通信双方建立连接的过程采用明文传输，该协议也是本文重点研究的协议。

TLS握手过程是由客户端发起，服务端响应，在通信双方进行一系列信息交换和身份验证后完成，如图1所示。一个完整的TLS握手过程包括Client Hello，Server Hello，Certificate&Key&Cipher， ChangeCipherSpec 4个部分^[13]，通信双方在建立连接过程中协商选择TLS协议版本号、加密算法等信息来确定加密方式。进一步通过证书校验、密钥交换等操作来进行身份验证，验证通过后，构建加密信道进行数据传输。

图 1 TLS握手过程

Figure 1. TLS handshake process

下载: 全尺寸图片幻灯片

2. 基于多特征融合的TLS加密恶意流量检测方法

为了高效检测TLS加密恶意流量，提出了基于多特征融合的TLS加密恶意流量检测方法，如图2所示。该方法包含特征选择、特征子集的构建与标准化、特征子集降维及模型训练与评估4个模块，采用有监督的机器学习算法建立检测模型，利用特征工程将数据集转换后导入检测模型进行训练和预测，通过预测结果对模型进行评估。

图 2 基于多特征融合的TLS加密恶意流量检测方法流程

Figure 2. Flow of TLS encrypted malicious traffic detected method based on multi-feature fusion

下载: 全尺寸图片幻灯片

2.1 特征选择

流^[14]是指在一定时间内，具有相同源IP地址、源端口号、目的 IP 地址、目的端口号和协议的网络数据包所携带的数据特征总和^[13]。使用Zeek工具对pcap流量包进行特征提取，并将得到的流特征分别存储在flowmeter.log，conn.log，ssl.log和X.509.log 日志文件中。pcap流量包中每条流使用的IP地址和端口等信息均存储在日志文件中，每条流都对应一个唯一的流指纹uid，用于关联流在不同日志中的行为。pcap流量包处理流程如图3所示。先将恶意和良性pcap流量包进行预处理，利用Zeek工具解析pcap流量包中每条流，得到所有流的特征并存储在4个日志文件中，进而利用Zat工具将所提取的特征转换为恶意流量特征子集和良性流量特征子集。

图 3 pcap流量包处理流程

Figure 3. Flow of pcap traffic packages processing

下载: 全尺寸图片幻灯片

（1）流元特征。存储在flowmeter.log日志文件中的流元特征包括有效负载的数据包数量、大小、到达时间和有效负载字节数等，良性流量与恶意流量在这些特征上具有统计学意义的差异^[15]。

（2）连接特征。连接特征包括跟踪TCP/UDP建立连接的过程和TLS握手特征中的Client Hello，Server Hello，ServerHelloDone，分别存储于conn.log和ssl.log日志文件中。连接特征反映了网络中通信主体在何时持续多长时间及使用何种协议进行数据传输。

（3） X.509证书特征。X.509证书特征是TLS握手过程中证书校验部分，包括证书签发者、证书是否自签名、证书包含的域名数量等，存储于X.509.log日志文件中。

过多的特征会导致训练与检测的效果下降，所选特征过多会增加计算开销，占用过量的内存和存储空间，造成资源灾难。为了避免这个问题，在特征提取阶段避免选择重复或相似度较高的特征；采用特征工程对所提取的特征进行降维，删除冗余特征，将相似特征在特征空间进行合成，降低特征维度，保留有效信息。

2.2 特征子集的构建与标准化

提取的流元特征、连接特征通过流指纹uid构成流特征子集，共94维。将流子集进行标准化，使特征数据均值和方差服从N(0,1)分布。首先计算特征数据的最大值、最小值、均值和方差，进而对每个维度的特征进行标准化处理。

$$ x' = \frac{{x - \mu }}{{{\sigma ^2}}} $$

(1)

式中：x′为标准化后的特征值；x为特征子集中的特征值；μ为特征子集中某特征的平均值；σ²为特征子集中某特征的方差。

将所得到的标准流特征子集X₁与对应的标签值构成一个训练集T₁。

X.509证书特征包括issuer，subject和cipher 3个部分，作为证书特征子集。对证书特征子集进行one-hot编码，得到2 874维稀疏证书特征子集X₂。

2.3 特征子集降维

为了减少计算开销，提高检测的准确性，对特征子集X₁和X₂进行降维。采用随机森林特征重要性评估器对标准流特征子集X₁进行降维，先将训练集T₁输入随机森林分类器进行训练，训练完成后从随机森林特征重要性评估器中得到每维特征的重要性权重${\varepsilon _i}（i=1, 2, \cdots, 94, i为特征维数）$，$ {\varepsilon _i} \in \left[ {0,1} \right], \displaystyle \sum\limits_{i = 1}^{94} {{\varepsilon _i} =} 1$，选取ε_i≥0.01的28维特征作为降维后的标准流特征子集，标准流特征子集对流特征子集的贡献率为0.715 8。前28个特征和特征重要性权重见表1。

表 1 ε_i≥0.01的前28个特征和特征重要性权重

Table 1. Top 28 features with ε_i≥0.01 and feature importance weights

特征	ε_i	特征	ε_i
后向数据包负载最大值	0.092 9	后向数据包头字节数值	0.016 5
conn_state 连接状态	0.092 3	前向第1个数据包的窗口大小（字节）	0.016 2
前向数据包负载标准差	0.071 9	有1个有效载荷的后向数据包数量	0.015 5
后向数据包负载平均值	0.061 6	流中2个连续数据包之间到达时间的最小值	0.014 3
后向数据包负载最小值	0.058 6	前向数据包负载最大值	0.013 9
流数据包负载平均值	0.048 6	前向所有到达时间的标准差	0.013 4
目的端口号	0.042 6	流中2个连续数据包之间到达时间的最大值	0.012 8
流数据包负载最大值	0.034 7	1个TCP流中出现ACK标志的总数	0.012 8
后向数据包头字节数最大值	0.027 5	前向2个连续数据包之间到达时间的最大值	0.011 3
前向子流有效负载平均数量	0.023 6	前向子流数据包数量平均值	0.011 2
后向2个连续数据包之间到达时间的方差	0.023 1	后向数据包头字节综述	0.0110
后向与前向数据包数量之比	0.022 3	后向第1个数据包的窗口大小（字节）	0.010 5
后向2个连续数据包之间到达时间的最大值	0.021 8	后向2个连续数据包之间到达时间的平均值	0.010 2
后向子流数据包数量平均值	0.016 5	源端口号	0.010 0

下载: 导出CSV

| 显示表格

编码后的证书特征子集升维会造成维度灾难，随机森林特征重要性评估器的方法不再适用。为此，采用主成分分析法（Principal Component Analysis，PCA）去除数据中的噪声且缓解维度灾难，对稀疏证书特征子集X₂进行降维。首先从X₂中获得协方差矩阵，根据协方差矩阵得到X₂的特征值和特征向量，进而得到每个特征向量对训练集的贡献率，降维后的特征维度由前j个主成分的特征贡献率θ_k$(k=1, 2, \cdots , j) $决定，则累计特征贡献率（前j个主成分贡献率的总和）为

$$ \theta = \sum\limits_{k = 1}^j {\max {\theta _k}} $$

(2)

为了避免过拟合，在降维过程中丢弃冗余的信息，经过大量实验验证可得，当$ \theta \in \left[ {0.9,0.95} \right] $ 时，机器学习训练效果最好，本文以计算量最小原则，取$ \theta = 0.9 $的阈值进行PCA 降维，进而确定降维后的稀疏证书特征子集X₂共有106维，对证书特征子集的贡献率为0.900 1。

将TLS握手过程中所提取的TLS版本号特征作为每条TLS加密流的标志。其中，本文所使用数据集中含SSL3.0/ TLS1.0/ TLS1.1/ TLS1.2^[16]4个TLS版本，对TLS版本号特征进行独热编码后得到4个维度的数值特征。将TLS版本号特征与处理后的流特征子集和稀疏特征子集通过流指纹拼接，得到138维特征集X，X与其标签Y构成样本集T，将样本集T按照7:3的比例划分为训练集和测试集，其中训练集与测试集中恶意流量和良性流量的比例与样本集T保持一致，均为2:1。

2.4 机器学习模型

使用决策树（Decision Tree, DT）分类器^[17-18]、K近邻（K-Nearest Neighbor, KNN）分类器、高斯朴素贝叶斯（Gaussian Naive Bayes, GNB）分类器、L2逻辑回归（Logistic Regression, LR）分类器和随机梯度下降（Stochastic Gradient Descent , SGD）分类器5个子模型对所提出特征集进行检验。采用控制变量法得到DT分类器子模型的最大深度为 20，并使用信息熵作为特征划分依据；建立 KNN分类器子模型，采用网格搜索法确定K值为5；建立GNB分类器子模型，利用极大似然法计算先验概率；建立LR分类器子模型，设置正则化参数L2；建立SGD分类器子模型，设置正则化参数L2，损失函数为“hinge”。将训练集分别输入5个子模型进行训练，用测试集对5个子模型进行检验，使5个子模型达到最优效果。

2.5 构建多模型投票检测模型

为了提高检测模型的鲁棒性，本文结合投票法原理将5个子模型结合，构建了多模型投票（Muti-model Voting Classifier，MVC）检测模型。MVC检测模型将5个分类器子模型作为投票器，每个分类器子模型单独训练样本集，输出每个样本为良性/恶意流量的预测值，按照少数服从多数原则进行投票，进而得到每个样本的最终预测值。

3. 实验验证

为验证本文方法的有效性，对MVC检测模型进行了实验。实验环境为Python 3.7，通过调用scikit-learn^[19]库来构建机器学习模型。

3.1 数据集

本文使用的是开源CTU−13^[20]数据集，该数据集是在特定场景中分别执行13个恶意家族软件并收集恶意软件感染过程所产生的流量，包括良性流量子集和13个恶意家族流量子集。由于恶意家族的软件在真实的网络环境中所产生的攻击行为具有同源性，对于某一个家族来说，其在攻击任何网络主体时，所产生的流量行为具有高度的相似性。基于恶意家族的特性，CTU−13数据集的采集环境可以很好地代表煤矿网络面临的攻击环境。

本文在CTU−13数据集中挑选了7个恶意pcap流量包和1个良性pcap流量包，对MVC检测模型进行验证，其中，每个恶意pcap流量包中只包含一种恶意软件产生的TLS加密恶意流量。利用Wireshark工具将所获取的pcap流量包按时间序列进行合并，得到1个恶意流量包和1个良性流量包。将流量包进行数据清洗，删除冗余、无效的信息，忽略TCP（Transmission Control Protocol，传输控制协议）校验和无效的流量。实验所用流量数据集（表2）共有314 733条良性流量（含51 373条TLS加密流量）和657 198条恶意流量（含35 383条TLS加密流量）。

表 2 流量数据集

Table 2. Traffic dataset

流量名称	类型	样本量/条	总量/条
恶意流量	Yakes	209 611	657 198
	Conficker	80 751
	Cridex	90 130
	Dridex	41 622
	Sality	146 366
	Razy	68 047
	TrickBot	20 671
良性流量	Normal	314 733	314 733

下载: 导出CSV

| 显示表格

3.2 性能指标

为更加客观地评价MVC检测模型的有效性，本文从2个方面对模型进行评估：① 使用准确率A、召回率R、F₁分数（精确率和召回率的调和平均数，即认为精确率和召回率同等重要，权重都为1）和误报率W（正样本被预测为负样本的概率）检验模型分类效果。② 从检测模型错误分类的TLS加密流量样本量来进行评估。

$$ A = \frac{{{N_{{\text{TP}}}} + {N_{{\text{TN}}}}}}{{{N_{{\text{TP}}}} + {N_{{\text{TN}}}} + {N_{{\text{FP}}}} + {N_{{\text{FN}}}}}} $$

(3)

$$ P = \frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}} + {N_{{\text{FP}}}}}} $$

(4)

$$ R = \frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}} + {N_{{\text{FN}}}}}} $$

(5)

$$ {F_1} = \frac{{2PR}}{{P + R}} $$

(6)

$$ W = \frac{{{N_{{\text{FP}}}}}}{{{N_{{\text{FP}}}} + {N_{{\text{FN}}}}}} $$

(7)

式中：N_TP为被正确识别为正样本的正样本；N_TN为被正确识别为负样本的负样本；N_FP为被错误识别为负样本的正样本；N_FN为被错误识别为正样本的负样本；P为精确率。

3.3 模型检测结果

将训练集输入5个分类器子模型和MVC检测模型进行训练，用测试集检验模型性能，测试集样本总量为307 179条，其中恶意样本量为198 944条，TLS加密良性样本量为10 476条，TLS加密恶意样本量为15 372条，模型性能对比见表3。

表 3 模型性能对比

Table 3. Comparison of the performance of models

模型	A/%	R/%	F₁/%	W/%
DT	99.88	99.85	99.84	0.09
KNN	99.88	99.86	99.83	0.10
GNB	82.93	51.87	68.17	0.17
LR	97.69	99.21	96.81	3.13
SGD	94.35	98.73	92.49	8.00
MVC	99.66	99.28	99.52	0.13

下载: 导出CSV

| 显示表格

由表3可看出，本文所提出的多特征融合特征集在DT分类器、KNN分类器和LR分类器子模型上有良好的表现，其中DT分类器和KNN分类器子模型表现较好，准确率和召回率达99%以上，误报率均在0.10%以下。而GNB分类器和SGD分类器子模型的检测结果相对较差，主要是因为GNB分类器子模型对数据表达形式比较敏感，经过特征工程处理的特征集将文本类特征转换为数值类特征，使得该分类器的表现有所下降，但其能够有效降低误报率，使得其在投票过程中依旧能够发挥优势。SGD分类器子模型对数据缩放和特征降维比较敏感，对于恶意流量检测检测效果较好，但其误报率较高。MVC检测模型准确率为99.66%，召回率达99.28%，F₁分数为99.52，误报率为0.13%，提高了加密恶意流量的检出率。

模型错误分类TLS加密样本数量如图4所示。可看出MVC检测模型在数据集上实现了对TLS加密恶意流量的“零误报率”。

图 4 模型错误分类TLS加密样本数量

Figure 4. Number of TLS encrypted samples misclassified by models

下载: 全尺寸图片幻灯片

4. 结论

（1）所构建的特征集降低了样本集维度，提高了TLS加密流量检测效率。

（2） DT分类器和KNN分类器子模型在特征集上有良好的表现，其中准确率和召回率均在99%以上，误报率均在0.10%以下；GNB分类器子模型表现最差，召回率仅达51.87%；SGD分类器和LR分类器子模型具有相似的表现，其误报率都很高。

（3） MVC检测模型的准确率达99%以上，误报率为0.13%，提高了加密恶意流量的检出率。

（4） MVC检测模型在数据集上实现了对TLS加密恶意流量的“零误报率”。

图 1 TLS握手过程

Figure 1. TLS handshake process

下载: 全尺寸图片幻灯片

图 2 基于多特征融合的TLS加密恶意流量检测方法流程

Figure 2. Flow of TLS encrypted malicious traffic detected method based on multi-feature fusion

下载: 全尺寸图片幻灯片

图 3 pcap流量包处理流程

Figure 3. Flow of pcap traffic packages processing

下载: 全尺寸图片幻灯片

图 4 模型错误分类TLS加密样本数量

Figure 4. Number of TLS encrypted samples misclassified by models

下载: 全尺寸图片幻灯片

表 1 ε_i≥0.01的前28个特征和特征重要性权重

Table 1 Top 28 features with ε_i≥0.01 and feature importance weights

特征	ε_i	特征	ε_i
后向数据包负载最大值	0.092 9	后向数据包头字节数值	0.016 5
conn_state 连接状态	0.092 3	前向第1个数据包的窗口大小（字节）	0.016 2
前向数据包负载标准差	0.071 9	有1个有效载荷的后向数据包数量	0.015 5
后向数据包负载平均值	0.061 6	流中2个连续数据包之间到达时间的最小值	0.014 3
后向数据包负载最小值	0.058 6	前向数据包负载最大值	0.013 9
流数据包负载平均值	0.048 6	前向所有到达时间的标准差	0.013 4
目的端口号	0.042 6	流中2个连续数据包之间到达时间的最大值	0.012 8
流数据包负载最大值	0.034 7	1个TCP流中出现ACK标志的总数	0.012 8
后向数据包头字节数最大值	0.027 5	前向2个连续数据包之间到达时间的最大值	0.011 3
前向子流有效负载平均数量	0.023 6	前向子流数据包数量平均值	0.011 2
后向2个连续数据包之间到达时间的方差	0.023 1	后向数据包头字节综述	0.0110
后向与前向数据包数量之比	0.022 3	后向第1个数据包的窗口大小（字节）	0.010 5
后向2个连续数据包之间到达时间的最大值	0.021 8	后向2个连续数据包之间到达时间的平均值	0.010 2
后向子流数据包数量平均值	0.016 5	源端口号	0.010 0

下载: 导出CSV

表 2 流量数据集

Table 2 Traffic dataset

流量名称	类型	样本量/条	总量/条
恶意流量	Yakes	209 611	657 198
	Conficker	80 751
	Cridex	90 130
	Dridex	41 622
	Sality	146 366
	Razy	68 047
	TrickBot	20 671
良性流量	Normal	314 733	314 733

下载: 导出CSV

表 3 模型性能对比

Table 3 Comparison of the performance of models

模型	A/%	R/%	F₁/%	W/%
DT	99.88	99.85	99.84	0.09
KNN	99.88	99.86	99.83	0.10
GNB	82.93	51.87	68.17	0.17
LR	97.69	99.21	96.81	3.13
SGD	94.35	98.73	92.49	8.00
MVC	99.66	99.28	99.52	0.13

下载: 导出CSV

参考文献(20)

[1]	刘雨燕,宋燕. 新一代信息技术助力智慧矿山建设[J]. 煤炭技术,2021,40(2):184-186. LIU Yuyan,SONG Yan. New-generation information technology helps construction of smart mines[J]. Coal Technology,2021,40(2):184-186.
[2]	陈燕. 煤矿网络安全风险与防范标准研究[J]. 中国石油和化工标准与质量,2019,39(18):5-6. DOI: 10.3969/j.issn.1673-4076.2019.18.002 CHEN Yan. Study on safety risk and prevention standard of coal mine network[J]. China Petroleum and Chemical Standard and Quality,2019,39(18):5-6. DOI: 10.3969/j.issn.1673-4076.2019.18.002
[3]	谭靓洁,李永飞,吴琼. 基于区块链的煤矿安监云数据安全访问模型研究[J]. 工矿自动化,2022,48(5):93-99. DOI: 10.13272/j.issn.1671-251x.2022030023 TAN Liangjie,LI Yongfei,WU Qiong. Research on security access model of coal mine safety supervision cloud data based on blockchain[J]. Journal of Mine Automation,2022,48(5):93-99. DOI: 10.13272/j.issn.1671-251x.2022030023
[4]	SEAN G. Nearly half of malware now use TLS to conceal communications[EB/OL]. [2022-03-21]. https://news.sophos.com/en-us/2021/04/21/nearly-half-of-malware-now-use-tls-to-conceal-communications/.
[5]	袁钦献. 加密网络流量分析关键技术研究与开发[D]. 西安: 西安电子科技大学, 2019. YUAN Qinxian. Research and development of key technology for encrypted network traffic analysis[D]. Xi'an: Xidian University, 2019.
[6]	ANDERSON B, MCGREW D. Identifying encrypted malware traffic with contextual flow data[C]//Proceedings of the 2016 ACM workshop on artificial intelligence and security, Vienna, 2016: 35-46.
[7]	翟明芳,张兴明,赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报,2020,6(3):66-77. ZHAI Mingfang,ZHANG Xingming,ZHAO Bo. Survey of encrypted malicious traffic detection based on deep learning[J]. Chinese Journal of Network and Information Security,2020,6(3):66-77.
[8]	TORROLEDO I, CAMACHO L D, BAHNSEN A C. Hunting malicious TLS certificates with deep neural networks[C]//Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security, Toronto, 2018: 64-73.
[9]	YU Tangda, ZOU Futai, LI Linsen, et al. An encrypted malicious traffic detection system based on neural network[C]//2019 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery（CyberC）, Guilin, 2019: 62-70.
[10]	REZAEI S,LIU X. Deep learning for encrypted traffic classification:an overview[J]. IEEE Communications Magazine,2019,57(5):76-81. DOI: 10.1109/MCOM.2019.1800819
[11]	ANDERSON B,PAUL S,MCGREW D. Deciphering malware's use of TLS (without decryption)[J]. Journal of Computer Virology and Hacking Techniques,2016,14(1):1-17.
[12]	ANDERSON B, MCGREW D. Machine learning for encrypted malware traffic classification: accounting for noisy labels and non-ntationarity[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, 2017: 1723-1732.
[13]	骆子铭,许书彬,刘晓东. 基于机器学习的TLS恶意加密流量检测方案[J]. 网络与信息安全学报,2020,6(1):77-83. LUO Ziming,XU Shubin,LIU Xiaodong. Scheme for identifying malware traffic with TLS data based on machine learning[J]. Chinese Journal of Network and Information,2020,6(1):77-83.
[14]	BARUT O, ZHU R, LUO Y, et al. TLS encrypted application classification using machine learning with flow feature engineering[C]//The 10th International Conference on Communication and Network Security, Tokyo, 2020: 32-41.
[15]	鲁刚,郭荣华,周颖,等. 恶意流量特征提取综述[J]. 信息网络安全,2018(9):1-7. LU Gang,GUO Ronghua,ZHOU Ying,et al. Review of malicious traffic feature extraction[J]. Netinfo Security,2018(9):1-7.
[16]	康鹏, 杨文忠, 马红桥. TLS协议恶意加密流量识别研究综述[J/OL]. 计算机工程与应用: 1-21[2022-03-21]. http://kns.cnki.net/kcms/detail/11.2127.TP.20220308.0853.002.html. KANG Peng, YANG Wenzhong, MA Hongqiao. TLS malicious encrypted traffic identification research [J/OL]. Computer Engineering and Applications: 1-21[2022-03-21]. http://kns.cnki.net/kcms/detail/11.2127.TP.20220308.0853.002.html.
[17]	王洋,陈紫儿,柳瑞春,等. 基于决策树算法的网络加密流量识别方法[J]. 长江信息通信,2021,34(11):15-17. DOI: 10.3969/j.issn.1673-1131.2021.11.005 WANG Yang,CHEN Zi'er,LIU Ruichun,et al. Network encryption traffic identification method based on decision tree algorithm[J]. Changjiang Information & Communications,2021,34(11):15-17. DOI: 10.3969/j.issn.1673-1131.2021.11.005
[18]	张心语,张秉晟,孟泉润,等. 隐私保护的加密流量检测研究[J]. 网络与信息安全学报,2021,7(4):101-113. ZHANG Xinyu,ZHANG Bingsheng,MENG Quanrun,et al. Study on privacy preserving encrypted traffic detection[J]. Chinese Journal of Network and Information,2021,7(4):101-113.
[19]	PEDREGOSA F,VAROQUAUX G,GRAMFORT A,et al. Scikit-learn:machine learning in Python[J]. Machine Learning,2011,12:2825-2830.
[20]	GARCIA S,GRILL M,STIBOREK J,et al. An empirical comparison of botnet detection methods[J]. Computers & Security,2014,45:100-123.

施引文献(6)

期刊类型引用(4)

1.	唐瑛，王宝会. 基于图神经网络的SSL/TLS加密恶意流量检测算法研究. 计算机科学. 2024(09): 365-370 . 百度学术
2.	霍跃华，吴文昊，赵法起，王强. 结合协同训练的多视图加密恶意流量检测方法. 西安电子科技大学学报. 2023(04): 139-147 . 百度学术
3.	江魁，陈小雷，顾杜娟，李文瑾，李越挺. 基于可变长序列的恶意加密流量检测方法. 福州大学学报(自然科学版). 2023(05): 711-716 . 百度学术
4.	关智华，郭志彪. 基于AES的通信信息网络实时加密技术. 现代传输. 2023(06): 60-63 . 百度学术

其他类型引用(2)

资源附件(0)

图(4) / 表(3)

计量

文章访问数: 281
HTML全文浏览量: 50
PDF下载量: 21
被引次数: 6

0. 引言
1. TLS加密协议
2. 基于多特征融合的TLS加密恶意流量检测方法
2.1 特征选择
2.2 特征子集的构建与标准化
2.3 特征子集降维
2.4 机器学习模型
2.5 构建多模型投票检测模型
3. 实验验证
3.1 数据集
3.2 性能指标
3.3 模型检测结果
4. 结论

多特征融合的煤矿网络加密恶意流量检测方法

作者简介: 霍跃华（1981— ），男，山西晋中人，高级工程师，硕士研究生导师，主要研究方向为网络安全、通信与监测，E-mail： huoyh@cumtb.edu.cn

计量

出版历程