与数据并行在不同设备都有完整的计算图不同,模型并行是不同设备负责单个计算图不同部分的计算。将计算图中的层内的参数切分到不同设备,即层内并行,我们称之为张量模型并行。这次我们一起来分享张量并行从数学原理,到实际网络模型的MatMul、Embedding、MLP、Transformer和Loss是如何进行张量并行的吧!