【大模型与分布式训练】系列第七篇(下):分布式训练的流水线并行来啦!了解下GPipe和PipeDream? 大的模型需要从层(Layer)级别进行进一步的图切分以减少单卡存储的容量需求,同时隐藏卡之间的通信时间,更加充分利用GPU卡的算力,为此业界提出了流水线并行的方式解决上述切分和调度的问题。流水线并行是的大规模分布式并行训练很重要的一个并行方式组成,让我恩一起来了解下什么是流水线并行?GPipe和PipeDream的具体核心算法原理吧!