【大模型与分布式训练】系列第十篇:分布式训练总结 分布式训练不只是只有数据并行、模型并行。实际上要训练大模型、要利用分布式训练能力,需要从AI集群开始了解,通过通信把机器跟机器之间建立网络拓扑关系。有了AI集群,而且还可以互相通信,研究大模型算法去咯!但是研究大模型算法,需要AI框架支持分布式系统功能。一切感觉都准备好啦,框架、算法、算力。嗯,可以训练起来啦!太慢了?训练介黑暗料理了解下,数据并行、模型并行、加速优化!都加进来!