基于ERes-ECAM 的动物声纹识别

打开文本图片集
摘 要:声纹识别技术不仅在人类身份验证领域广泛应用,在动物种类识别方面也取得一定进展。现有模型存在特征表达能力不足的问题,同时,在保证性能的前提下,模型的时间复杂度和推理速度有待优化。提出用于发声动物嵌入学习的改进的残差块连接改进的上下文感知掩蔽(Enhanced Res2block connected Enhanced Context Aware Masking,ERes-ECAM)新型架构,采用了稠密连接的时延神经网络(Densely-connected Time Delay Neural Network,D-TDNN)作为骨干,为了解决模糊不相关噪声问题的同时能够提取更多有效的关键信息,在D-TDNN 层中采用多粒度池化方法的改进的上下文感知掩蔽(Enhanced Context Aware Masking,ECAM)模块,前端连接残差模块,通过局部特征融合(Local FeatureFusion,LFF)的方式,将残差块内提取的特征进行融合来提取局部信息,提升了声纹验证系统的准确性和鲁棒性。(剩余15208字)