AI系统(深度学习系统)之【大模型与分布式训练】系列第四篇!参数服务器PS架构!Ring All Reduce算法跟物理网络的关系! 参数服务器PS架构已经成为现在AI集群、AI服务器中最常用的组网架构,有了参数服务器PS架构之后,训练大模型就需要解决模型参数同步的问题,于是出现了各种各样的物理网络互联方式,通过集合通信进行网络数据传输。而环是一种较优的网络拓扑,通过Ring All Reduce算法可以有效地解决参数服务器之间的数据同步问题。