基于生成对抗网络的语音画像方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:【目的】为应对当前语音驱动的人脸图像生成方法在特征提取和生成质量方面的挑战,特别是解决音频与人脸特征之间深层联系的探索和利用不足问题,提出了一种基于梅尔频率倒谱系数(MFCC)的InceptionResNet-V1音频特征提取网络。【方法】通过SEGAN对音频信号进行数据增强,以实现特征的精细提取和有效传递。(剩余14256字)

monitor