融合CNN与时序Transformer的动态手势识别

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要: 针对传统手势识别方法没有综合考虑手势的全局空间、局部空间、时序等特征信息,提取的特征通常很难全面表征手势之间的区别,提出了一种卷积神经网络(CNN)和Transformer网络相结合的网络结构。首先对输入视频序列的每一帧使用轻量化MobileNet V3卷积神经网络来提取空间特征信息,再将输出经过pathch embedding后加上时序嵌入序列,输入到Transformer模型中利用注意力机制来提取手势的全局注意力特征和时序特征。(剩余11347字)

monitor
客服机器人