【大模型与分布式训练】系列第七篇(上):PyTorch数据并行实现原理!DP、DDP、FSDP数据并行原理! 数据并行不仅仅指对训练的数据并行操作,而是对网络模型梯度、权重参数、优化器状态等数据进行并行。而PyTorch原生支持数据并行DP、分布式数据并行DDP、全切分数据并行FSDP 3种不同的数据并行操作,三种数据并行DP之间有什么不同呢?他们的核心原理又是什么呢?