基于Local SGD的部分同步通信策略

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:Local SGD训练方法用于分布式机器学习以缓解通信瓶颈,但其本地多轮迭代特性使异构集群节点计算时间差距增大,带来较大同步时延与参数陈旧问题。针对上述问题,基于Local SGD方法提出了一种动态部分同步通信策略(LPSP),该方法利用两层决策充分发挥Local SGD本地迭代优势。在节点每轮迭代计算结束后,基于本地训练情况判断通信可能性,并在全局划分同步集合以最小化同步等待时延,减少Local SGD通信开销并有效控制straggler负面影响。(剩余17645字)

目录
monitor