分布式训练,不同worker某个batch计算得梯度如何在server进行聚合呢?
来源:10-3 自动网络结构搜索算法一的分布式训练
站在你背后的
2020-03-04
分布式训练,不同worker某个batch计算得梯度如何在server进行聚合呢?是取平均值,还是怎么处理呢?
写回答
2回答
-
正十七
2020-03-05
其实分情况,比如异步下,每个worker返回的梯度直接被拿来更新参数。然后同步下,则需要等待多个worker都返回梯度,这个时候,取决于数据是不是并行,如果是每个worker上各有一个batch,那么应该去梯度,如果是所有worker上的数据加起来是一个batch,那么梯度也应该是加起来。
00 -
站在你背后的
提问者
2020-03-04
查阅资料,发现是求平均值的,然后进行参数的更新
00
相似问题