Coal gangue audio classification method based on improved EfficientNet
-
摘要:
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet−B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。
-
关键词:
- 综放开采 /
- 煤矸识别 /
- 音频特征提取 /
- EfficientNet /
- Mel频谱特征 /
- Gammatone倒谱系数 /
- 注意力机制
Abstract:To address the issues of severe interference of equipment operating noise and information loss caused by single extraction methods during coal gangue audio feature extraction, a coal gangue audio classification method based on improved EfficientNet is proposed. The method adopted a feature extraction approach combining Mel spectrogram and Gammatone frequency cepstral coefficients to effectively capture low-frequency information and detailed features in gangue audio. EfficientNet-B0 was selected as the backbone network, and the following improvements were made: the original multi-scale channel attention module was replaced with a convolutional block attention module, resulting in the Convolutional Attention Feature Fusion (CAFF) module. This module allowed the network to autonomously assign different weight information to features in different spatial positions, generating new effective features. Additionally, a Frequency-domain Channel Attention (FCA) module was embedded in parallel within the original MBConv module, strengthening the representation ability of feature maps and thereby improving overall network performance. The experimental results demonstrated that after introducing the CAFF module, the model's accuracy improved by 0.61%, the F1 score increased by 0.52%, and convergence was faster, indicating that the CAFF module effectively enhanced the model's ability to capture spectral features. After integrating the FCA module, accuracy improved by 0.45%, and the F1 score increased by 0.62%, showing that combining these modules further enhanced the model's generalization ability and its ability to process complex features. The improved EfficientNet model achieved an accuracy of 91.90%, with a standard deviation of 0.108, significantly outperforming other comparable audio classification models.
-
0. 引言
传统的放顶煤方法通常凭借工人耳听来判断放煤阶段,存在较大不确定性和人为误差,难以准确控制放煤过程的启停动作,易造成过放和欠放[1-2],导致煤炭采出率低、含矸量高,严重影响资源的有效利用和经济效益[3]。为实现煤矸精准识别,近年来研究人员对多种方法进行了深入研究,包括自然γ射线法[4]、红外探测法[5]、图像识别法[6]、液体介入分析法[7]等。这些方法存在辐射安全性、设备成本高、易受煤粉影响等问题。
随着煤矿智能化和计算机技术的发展,机器学习、深度学习等技术被应用到煤矸音频信号识别和分类中。袁源等[8]对比分析了基于时域、频域和时频域的特征提取方法及6种机器学习方法的煤矸分类效果,结果表明基于时频域的特征提取方法表现最佳,随机森林与小波包分解相结合的方法分类准确率最高达94.51%。蒋磊等[9]建立了基于卷积神经网络(Convolutional Neural Networks,CNN)的煤矸智能识别模型,将液压支架尾梁振动信号的Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征矩阵作为输入,优化了模型结构,大幅提高了运算速度。李富强等[10]构建了声学场景分类模型,将音频数据中的MFCC特征输入模型进行分类识别,准确率达88.8%。陈旭[11]利用听觉计算模型处理煤矸垮落声音信号,利用 CNN 自动提取特征并进行煤矸识别。杨政等[12]提出了一种基于听觉特征融合的煤矸识别方法,提高了噪声环境下的音频识别准确性。Si Lei等[13]提出了一种结合改进蚁狮优化算法、变分模态分解和改进MobileNetV2的煤矸识别方法,在实际矿井测试中的准确率超过93%。窦希杰等[14]提出了一种基于经验模态分解与随机森林的识别方法,识别准确率达96.5%。
上述基于煤矸垮落声音信号的研究为放顶煤过程中智能煤矸识别提供了基础,然而现有研究大多忽略了放顶煤作业中设备运行噪声的影响。实际生产过程中,操作环境复杂,设备运行噪声大,给煤矸识别带来了挑战,强噪声环境下如何有效提取煤矸声音特征并减少噪声干扰,成为提高识别精度的关键。为此,本文提出了一种基于改进EfficientNet的煤矸音频分类方法。结合煤矸垮落声音信号的频谱特征,采用Mel频谱和Gammatone倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC)相结合的特征提取方法生成频谱特征图,输入改进 EfficientNet 模型实现煤矸识别。
1. 放煤过程音频信号特征提取
基于深度学习的煤矸音频分类主要包括特征提取和分类识别2个阶段[15]。音频特征提取过程中存在不同程度的信息损失[16]。在煤矸音频分类领域,Mel频谱图更加符合人类耳朵对不同频率声音的感知方式。然而,单一特征提取容易造成信息丢失,为弥补高噪声环境下Mel频谱图的不足,引入GFCC作为一种抗噪特征[17]。GFCC利用Gammatone滤波器组,提供与Mel滤波器组不同的频率响应,在捕捉高频信息方面表现出色,能够更有效地从背景噪声中区分出关键声音特征,从而增强分类模型在复杂环境下的鲁棒性和准确性。
1.1 Mel频谱特征
利用Mel频谱图可将音频信号转换成更适合人类听觉感知的频率尺度,从而使音频分析更加有效。Mel频谱特征提取主要包括预加权重、分帧、加窗、短时傅里叶变换(Short-Time Fourier Transform,STFT)和Mel滤波5个步骤[18],如图1所示。
首先对数据预加权重:
$$ y\left( t \right) = s\left( n \right) - \alpha s\left( {n - 1} \right) $$ (1) 式中:$ y\left( t \right) $为预加权重后的信号,t为连续时间;$ s\left( n \right) $为原始信号,$ n $为离散时间步;$ \alpha $为预加权重的系数,通常为0.9~1.0。
对预加权重后的信号进行STFT,得到谱矩阵:
$$ {\boldsymbol{x}}\left( {f,r} \right) = \displaystyle\int_{ - \infty }^\infty {w\left( {t - r} \right)} y\left( t \right){\exp({ - i2{\text{π}} fr})}{\mathrm{d}}t $$ (2) 式中:f为信号频率;r为分帧的帧长;w为汉明窗长度;$ i $为时间帧序号。
设汉明窗长度为512,滑动步长为256,将2 s的煤矸音频数据通过128个Mel滤波器,则Mel频率为
$$ f_{\mathrm{mel}}=259\; 5\; \mathrm{lg}\left(1+\frac{f}{700}\right) $$ (3) 将Mel滤波器应用于STFT结果,以获取每个Mel滤波器覆盖频率范围内的能量:
$$ {E_m} = {\sum\limits_{k = 1}^{M } {\left| {X\left( {{f_k},r} \right)} \right|} ^2}{H_m}\left( {{f_k}} \right) $$ (4) 式中:M为滤波器总数;$ X\left( {{f_k},r} \right) $为第$ k $个滤波器的中心频率fk处STFT的值;$ {H_m}\left( f_k \right) $为第$ m $个Mel滤波器在$ f _k$处的权值。
对每个滤波器的能量取对数得到$ {L_m} $,将所有对数能量$ {L_m} $按时间顺序排列,形成Mel频谱。
1.2 GFCC
GFCC相比MFCC倒谱系数有更好的抗噪声鲁棒性[17],因此在基于Gammatone滤波器组获得的GFCC中加入融合特征可以更好地识别音频信号。GFCC特征提取流程如图2所示。
输入信号经过预加重、分帧、加窗后[19], 使用STFT进行处理:
$$ p\left(r\right)=\sum\limits_{l=0}^{N-1}p\left(l\right)\exp(-\mathrm{j}2\text{π}lr/N) $$ (5) 式中:$ p\left( r \right) $为STFT变换后的值;N为STFT的总采样点数;$ p\left(l\right) $为原始时域信号第 $ l $个采样点的值。
将信号通过Gammatone滤波器组,每个滤波器的时域脉冲响应为
$$ {g_k}\left( r \right) = {r^{s - 1}}\exp \left( { - 2{\text{π}} {b_k}r} \right)\cos \left( {2{\text{π}} {f_k} + {\varphi _k}} \right)u\left( r \right) $$ (6) 式中:s为滤波器阶数;$ b_k $为滤波器衰减因子;$ {\varphi _k} $为滤波器相位;u(r)为阶跃函数。
提取煤矸音频信号特征时,将人耳听觉特征的临界值作为每个Gammatone滤波器的带宽:
$$ d_k=1.019B\left(f_k\right) $$ (7) 式中$ B\left( {{f_k}} \right) $ 为以中心频率$ {f_k} $为基准的听觉滤波器的等效矩形带宽。
$$ B\left( {{f_k}} \right) = 24.7 \left(\frac{{4.37{f_k}}}{{1\;000}} + 1\right) $$ (8) 计算Gammatone对数能量谱:
$$ E_{\mathrm{G}}\left(k\right)=\ln\left[\sum\limits_{k=1}^M|\boldsymbol{x}\left(f_k,r\right)|^2g_k\left(r\right)\right] $$ (9) 利用离散余弦变换得到Gammatone系数:
$$ C\left( n \right) = \sum\limits_{k = 1}^{M } {{E_{\mathrm{G}}}} \left( k \right)\cos \frac{{{\text{π}} n\left( {k - 0.5} \right)}}{M} $$ (10) 求式(10)的最大值、最小值、中值、平均值及标准差,可得GFCC特征向量。
2. 基于改进EfficientNet的煤矸音频分类
EfficientNet模型具有计算效率高、精度高、稳定性好等优点,考虑到煤矸识别任务对分类准确率和模型稳定性的高要求,本文选择EfficientNet−B0作为骨干网络。在音频信号特征提取阶段,采用Gammatone滤波器和Mel滤波器分别提取音频样本的频域特征信息并生成频谱图,随后输入卷积注意力特征融合(Convolutional Attention Feature Fusion,CAFF)模块,生成高效的融合信息矩阵。为了进一步提高对关键频域特征的关注,在MBConv模块中并行嵌入频域通道注意力(Frequency Channel Attention,FCA)模块,得到MBFCAConv模块。最后经过全连接层和softmax函数对特征进行处理,输出10类煤矸音频信号的预测结果。改进EfficientNet模型结构如图3所示,K3×3表示卷积核大小为3×3。
2.1 CAFF模块
EfficientNet模型中的AFF模块只考虑了多尺度和通道注意力[20],没有捕获到空间维度上的复杂特征。为了解决该问题,本文将原有的多尺度通道注意力模块(Multi-scale Channel Attention Module,MS-CAM)换成卷积块注意力模块(Convolutional Block Attention Module,CBAM),CBAM通过序列化的通道和空间注意力模块加强特征提取能力,提高模型的精度和鲁棒性。CAFF模块结构如图4所示,通过网络自学习为不同的特征分配不同的权重信息,生成新的有效特征。
2个不同特性的特征张量Mel频谱和GFCC通过简单的加法操作融合,生成新的特征张量。融合后的特征 X 输入通道注意力模块。该模块通过全局平均池化和全局最大池化分别生成2个通道描述符,捕捉特征的全局统计信息,从而强化关键通道。随后经过多层感知机处理,并通过 sigmoid 激活函数生成通道权重。通过通道注意力调整后,应用空间注意力机制强化特征的局部重要性。通过全局平均池化和全局最大池化生成特征图,经 7×7 卷积层融合处理后,通过sigmoid函数生成空间注意力图。空间注意力图对特征图的每个空间位置进行加权,以突出更有信息的区域。
2.2 MBFCAConv模块
在EfficientNet骨干网络进行煤矸识别过程中,特征图的不同频域对识别准确率的贡献程度不同,所以在MBConv模块中嵌入FCA,对具有区分信息的活跃频域赋予更多权重,对信息较少的不相关频域进行降权[21-23]。对于每组频率分量,FCA模块计算一个频率响应,该响应捕获该特定频率下通道的全局分布信息,然后通过一个全连接层进行整合,并且利用频道重排序操作在不同频率组之间传播信息,以确保全局优化。FCA模块加强了特征图的表达能力,为后续层提供了更丰富的信息,从而提高整个网络的性能。MBFCAConv模块结构如图5所示。
MBFCAConv模块的输入是经过特征融合处理后的特征图或通过前向传播获得的特征图。首先使用一个1×1的卷积对输入特征图X进行通道扩充,再通过深度可分离卷积进一步处理,将处理后的特征图分别输入FCA模块和压缩和激励模块,最后将2个特征图相加,由后续网络进行处理。
3. 实验分析
3.1 煤矸音频数据集制作
搭建了煤矸垮落实验平台,如图6所示。该平台主要包括落煤装置、液压支架、声学传感器、数据采集系统及模拟矿井现场噪声的设备。通过模拟实际矿井工作时的落煤过程,生成煤块或矸石撞击液压支架尾梁的声音信号。采集的声音信号频率范围主要集中在500~
4000 Hz。为了提高实验数据的真实性,特别采集了矿井设备运行产生的背景噪声,包括采煤机、刮板输送机和转载机的运行声音。自建音频数据集1和数据集2,见表1和表2。数据集1包含10类声音信号,涵盖煤块和矸石在不同落煤条件下的撞击声音。这些数据经过手动标注,共得到2 100个音频样本,每个样本经过分割处理,时长为2 s,采样频率为48 kHz。为了还原矿井环境中多设备同时作业产生的复杂噪声,本文模拟多个设备的协同运行场景,构建了音频数据集2。
表 1 煤矸音频数据集1Table 1. Coal gangue audio dataset 1编号 类别 样本数量 0 矸+采煤机右部 210 1 矸+采煤机左部 210 2 矸+后部刮板输送机 210 3 矸+前部刮板输送机 210 4 矸+转载机 210 5 煤+采煤机右部 210 6 煤+采煤机左部 210 7 煤+前部刮板输送机 210 8 煤+后部刮板输送机 210 9 煤+转载机 210 表 2 煤矸音频数据集2Table 2. Coal gangue audio dataset 2编号 类别 样本数量 0 煤+采煤机+刮板输送机+转载机 500 1 矸+采煤机+刮板输送机+转载机 500 3.2 训练参数与评价指标
设定训练周期为200,批量大小为64。每个训练样本按照8∶2的比例随机分为训练集和测试集。在自建数据集中,共获得1 680个训练样本和420个测试样本。所有模型均采用ADAM优化器训练,并结合阶跃衰减学习率函数进行优化。经过多次实验,得到最佳的学习率配置:初始学习率为0.001,学习率每经过40个周期衰减至原来的10%。动量参数设定为0.9。在模型评价指标方面,除了将准确率作为主要衡量标准外,还引入召回率、F1得分和精确率,以全面评估模型的性能和可行性。
3.3 消融实验
通过消融实验评估了不同的模型配置对煤矸音频分类任务的影响,结果见表3。
表 3 消融实验指标Table 3. Ablation experiment indicators% 模型编号 模型 特征 准确率 精确率 召回率 F1得分 A EfficientNet(backbone) Mel频谱 89.70 88.07 91.43 89.73 B EfficientNet(backbone) Mel频谱+GFCC 90.84 89.77 91.90 90.82 C EfficientNet(backbone)+CAFF Mel频谱+GFCC 91.45 90.47 92.23 91.34 D EfficientNet(backbone)+CAFF+FCA Mel频谱+GFCC 91.90 91.90 92.01 91.96 模型A为基准模型,模型B在模型A基础上加入了GFCC特征,在准确率和F1得分方面有所提升,但提升幅度有限。模型C在模型B基础上引入CAFF模块,准确率提升了0.61%,达91.45%;F1得分提升了0.52%,为91.34%;模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力。模型D在模型C基础上添加了FCA模块,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力。
3.4 同类模型对比实验
在采集的煤矸音频数据集上对几种常见的CNN模型进行对比实验。通过五次交叉验证,计算每个CNN模型的准确率平均值和标准差,结果分别如图7、图8所示。可看出改进EfficientNet模型的准确率最高,为91.90%,标准差最小,为0.108,说明改进EfficientNet模型更加稳定。
4. 结论
1) 提出了一种基于EfficientNet的煤矸音频频谱图特征融合模型,通过融合Mel频谱和GFCC双特征,解决了传统单一特征提取方法在背景噪声干扰严重情况下信息丢失的问题。
2) 为了进一步提高特征识别精度,引入CAFF特征融合模块,有效整合了不同频谱特征,避免了简单叠加导致的信息冗余。同时,通过FCA机制对重要频域特征进行加权,有效提升了复杂环境下的识别精度。
3) 未来将着重探索更多先进的特征提取技术和网络架构,以进一步提升模型在多变环境中的适应性和鲁棒性,同时针对工业应用需求提升计算效率和实时处理能力,推动其在实际场景中的应用价值和可操作性。
-
表 1 煤矸音频数据集1
Table 1 Coal gangue audio dataset 1
编号 类别 样本数量 0 矸+采煤机右部 210 1 矸+采煤机左部 210 2 矸+后部刮板输送机 210 3 矸+前部刮板输送机 210 4 矸+转载机 210 5 煤+采煤机右部 210 6 煤+采煤机左部 210 7 煤+前部刮板输送机 210 8 煤+后部刮板输送机 210 9 煤+转载机 210 表 2 煤矸音频数据集2
Table 2 Coal gangue audio dataset 2
编号 类别 样本数量 0 煤+采煤机+刮板输送机+转载机 500 1 矸+采煤机+刮板输送机+转载机 500 表 3 消融实验指标
Table 3 Ablation experiment indicators
% 模型编号 模型 特征 准确率 精确率 召回率 F1得分 A EfficientNet(backbone) Mel频谱 89.70 88.07 91.43 89.73 B EfficientNet(backbone) Mel频谱+GFCC 90.84 89.77 91.90 90.82 C EfficientNet(backbone)+CAFF Mel频谱+GFCC 91.45 90.47 92.23 91.34 D EfficientNet(backbone)+CAFF+FCA Mel频谱+GFCC 91.90 91.90 92.01 91.96 -
[1] 王家臣,刘云熹,李杨,等. 矿业系统工程60年发展与展望[J]. 煤炭学报,2024,49(1):261-279. WANG Jiachen,LIU Yunxi,LI Yang,et al. 60 years development and prospect of mining systems engineering[J]. Journal of China Coal Society,2024,49(1):261-279.
[2] 杨金燕,杨锴,田丽燕,等. 我国矿山生态环境现状及治理措施[J]. 环境科学与技术,2012,35(增刊2):182-188. YANG Jinyan,YANG Kai,TIAN Liyan,et al. Environmental impacts of mining activities in China and the corresponding management and remediation strategies:an overview[J]. Environmental Science & Technology,2012,35(S2):182-188.
[3] 王国法. 煤矿智能化最新技术进展与问题探讨[J]. 煤炭科学技术,2022,50(1):1-27. DOI: 10.3969/j.issn.0253-2336.2022.1.mtkxjs202201001 WANG Guofa. New technological progress of coal mine intelligence and its problems[J]. Coal Science and Technology,2022,50(1):1-27. DOI: 10.3969/j.issn.0253-2336.2022.1.mtkxjs202201001
[4] 张强,王海舰,郭桐,等. 基于截齿截割红外热像的采煤机煤岩界面识别研究[J]. 煤炭科学技术,2017,45(5):22-27. ZHANG Qiang,WANG Haijian,GUO Tong,et al. Study on coal-rock interface recognition of coal shearer based on cutting infrared thermal image of picks[J]. Coal Science and Technology,2017,45(5):22-27.
[5] 刘富强,钱建生,王新红,等. 基于图像处理与识别技术的煤矿矸石自动分选[J]. 煤炭学报,2000,25(5):534-537. DOI: 10.3321/j.issn:0253-9993.2000.05.020 LIU Fuqiang,QIAN Jiansheng,WANG Xinhong,et al. Automatic separation of waste rock in coal mine based on image procession and recognition[J]. Journal of China Coal Society,2000,25(5):534-537. DOI: 10.3321/j.issn:0253-9993.2000.05.020
[6] 高琳,于鹏伟,董红娟,等. 基于机器视觉的煤矸石识别方法综述[J]. 科学技术与工程,2024,24(26):11039-11049. DOI: 10.12404/j.issn.1671-1815.2307053 GAO Lin,YU Pengwei,DONG Hongjuan,et al. Review of coal gangue recogntion methods of based on machine vision[J]. Science Technology and Engineering,2024,24(26):11039-11049. DOI: 10.12404/j.issn.1671-1815.2307053
[7] 张锦旺,王家臣,何庚,等. 液体介入提升煤矸识别效率的试验研究[J]. 煤炭学报,2021,46(增刊2):681-691. ZHANG Jinwang,WANG Jiachen,HE Geng,et al. An experimental study on the improvement of coal and gangue identification efficiency by liquid intervention[J]. Journal of China Coal Society,2021,46(S2):681-691.
[8] 袁源,汪嘉文,朱德昇,等. 顶煤放落过程煤矸声信号特征提取与分类方法[J]. 矿业科学学报,2021,6(6):711-720. YUAN Yuan,WANG Jiawen,ZHU Desheng,et al. Feature extraction and classification method of coal gangue acoustic signal during top coal caving[J]. Journal of Mining Science and Technology,2021,6(6):711-720.
[9] 蒋磊,马六章,杨克虎,等. 基于MFCC和FD−CNN卷积神经网络的综放工作面煤矸智能识别[J]. 煤炭学报,2020,45(增刊2):1109-1117. JIANG Lei,MA Liuzhang,YANG Kehu,et al. Intelligent identification of coal gangue in fully mechanized top-coal caving face based on MFCC and FD-CNN convolutional neural network[J]. Journal of China Coal Society,2020,45(S2):1109-1117.
[10] 李富强,李昕. 放顶煤工艺中声学场景识别研究[J]. 中国煤炭,2023,49(2):82-88. LI Fuqiang,LI Xin. Research on acoustic scene recognition in top-coal caving process[J]. China Coal,2023,49(2):82-88.
[11] 陈旭. 基于听觉感知原理的综放工作面垮落煤矸识别方法研究[D]. 徐州:中国矿业大学,2022. CHEN Xu. Research on recognition method of caving coal gangue in fully mechanized caving face based on the principle of auditory perception[D]. Xuzhou:China University of Mining and Technology,2022.
[12] 杨政,王世博,饶柱石,等. 基于听觉特征融合的煤矸识别方法研究[J]. 振动与冲击,2024,43(8):136-144. YANG Zheng,WANG Shibo,RAO Zhushi,et al. Research on coal and gangue recognition method based on auditory feature fusion[J]. Journal of Vibration and Shock,2024,43(8):136-144.
[13] SI Lei,LI Jiahao,WANG Zhongbin,et al. A novel coal-gangue recognition method for top coal caving face based on IALO-VMD and improved MobileNetV2 network[J]. IEEE Transactions on Instrumentation Measurement,2023,72. DOI: 10.1016/j.measurement.2024.115730.
[14] 窦希杰,王世博,刘后广,等. 基于EMD特征提取与随机森林的煤矸识别方法[J]. 工矿自动化,2021,47(3):60-65. DOU Xijie,WANG Shibo,LIU Houguang,et al. Coal and gangue identification method based on EMD feature extraction and random forest[J]. Industry and Mine Automation,2021,47(3):60-65.
[15] HU Shipeng,CHU Yihang,WEN Zhifang,et al. Deep learning bird song recognition based on MFF-ScSEnet[J]. Ecological Indicators,2023,154. DOI: 10.1016/j.ecolind.2023.110844.
[16] BOLD N,ZHANG Chao,AKASHI T. Cross-domain deep feature combination for bird species classification with audio-visual data[J]. IEICE Transactions on Information and Systems,2019(10):2033-2042.
[17] KUMAR SWAIN B,ZUBAIR KHAN M,LAL CHOWDHARY C,et al. SRC:superior robustness of COVID-19 detection from noisy cough data using GFCC[J]. Computer Systems Science and Engineering,2023,46(2):2337-2349. DOI: 10.32604/csse.2023.036192
[18] 王娅茹,唐璐,陈爱斌,等. 基于轻量级LPDMR−NET的鸟鸣声识别方法[J]. 计算机工程,2024,50(10):174-184. WANG Yaru,TANG Lu,CHEN Aibin,et al. Birdsong recognition method based on lightweight LPDMR-NET[J]. Computer Engineering,2024,50(10):174-184.
[19] 吴晏辰,王英民. 基于Gammatone频率倒谱系数的舰船辐射噪声分析[J]. 水下无人系统学报,2021,29(1):60-64. WU Yanchen,WANG Yingmin. Ship-radiated noise analysis based on the gammatone frequency cepstrum coefficient[J]. Journal of Unmanned Undersea Systems,2021,29(1):60-64.
[20] DAI Yimian,GIESEKE F,OEHMCKE S,et al. Attentional feature fusion[C]. IEEE Winter Conference on Applications of Computer Vision,Waikoloa,2021:3560-3569.
[21] QIN Zequn,ZHANG Pengyi,WU Fei,et al. FcaNet:frequency channel attention networks[C]. IEEE/CVF International Conference on Computer Vision,Montreal,2021:783-792.
[22] SALAMON J,JACOBY C,BELLO J P,et al. A dataset and taxonomy for urban sound research[C]. The 22nd ACM International Conference on Multimedia,Orlando,2014:1041-1044.
[23] AKBAL E,TUNCER T,DOGAN S. Vehicle interior sound classification based on local quintet magnitude pattern and iterative neighborhood component analysis[J]. Applied Artificial Intelligence,2022,36(1). DOI: 10.1080/08839514.2022.2137653.