基于CNN-Transformer的欺骗语音检测

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:语音合成和转换技术的不断更迭对声纹识别系统产生重大威胁。针对现有语音欺骗检测方法中难以适应多种欺骗类型,对未知欺骗攻击检测能力不足的问题,提出了一种结合卷积神经网络(Convolutional Neural Network,CNN) 与Transformer 的欺骗语音检测模型。设计基于坐标注意力(Coordinate Attention,CA) 嵌入的SE-ResNet18 的位置感知特征序列提取网络,将语音信号局部时频表示映射为高维特征序列并引入二维位置编码(two-Dimensional Position Encoding,2D-PE) 保留特征之间的相对位置关系;提出多尺度自注意力机制从多个尺度建模特征序列之间的长期依赖关系,解决Trans-former 难以捕捉局部依赖的问题;引入特征序列池化(Sequence Pooling,SeqPool) 提取话语级特征,保留Transformer 层输出帧级特征序列之间的相关性信息。(剩余12073字)

monitor
客服机器人