基于数据增强的藏语拉萨方言语音识别研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:藏语属于低资源语言,其语音识别模型的训练面临数据稀缺的挑战。为了解决这一问题,文章研究了数据增强技术在藏语拉萨方言语音识别中的应用。首先,文章比较了DeepSpeech2、Conformer和Squeezeformer等3种主流语音识别模型在藏语拉萨方言语音识别任务中的性能。随后,在表现最佳的Conformer模型上,对速度扰动、音量扰动、移动扰动、SpecAugment和SpecSubAugment等5种数据增强方法的效果进行了对比分析。(剩余8501字)

目录
monitor