AI系统(深度学习系统)之【大模型与分布式训练】系列第五篇!通信硬件PCIE、NVLINK、RDMA原理!通信软件NCCL、MPI原理! 分布式并行训练集群中通信的具体实现分为机器内通信和机器间通信,里面硬件会通过PCIE、NVLINK、RDMA等具体硬件协议实现,软件上通过NCCL、MPI库来实现。