【大模型与分布式训练】系列第六篇(上):大模型从十亿到万亿规模SOTA模型!BERT、GPT3、Switch Transformer、GLaM算法原理! 大模型为AI算法带来无监督学习大规模应用和部署,还解决了模型碎片化和进一步突破任务精度。本次分享的内容分为上下两部分,一起来分享大模型从十亿到万亿规模,中间里程碑的BERT、GPT3、Switch Transformer、GLaM 4个核心SOTA模型!