基于申威众核架构的分组卷积计算加速与优化

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:针对应用普通卷积结构的卷积计算复杂度较高、计算量与参数量较大的问题,提出以国产SW26010P众核处理器为平台的并行分组卷积算法。核心思想是利用独特的数据布局,通过多核映射处理进行并行计算。实验测试结果表明,与单核串行算法相比,使用该并行分组卷积算法可以获得79.5的最高加速比及186.7MFLOPS的最大有效算力。(剩余9955字)

目录
monitor