基于img2col的2D卷积算子在DCU加速器上的并行优化研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:深度学习中,因卷积巨大的计算需求,经常成为限制大型卷积神经网络性能的瓶颈,为此,提出使用并行技术来优化卷积运算的策略。对传统2D卷积算子进行重构,使其转换为通用矩阵乘法;使用共享内存和数据预取等技术,降低访存次数;针对加速器的硬件架构,调整算法的并行方案以提高计算性能。实验结果表明,相较传统的计算方式,该优化策略将运算速度提升了近7.5倍,提高了卷积运算效率。(剩余9317字)

monitor