随着通用AI时代的来临,算力需求正以前所未有的速度增长。历史上,摩尔定律预测算力每20个月翻倍,但大型语言模型的出现打破了这一规律。从2018年GPT-1的1.17亿参数到2023年传闻中的GPT-4可能达到的100万亿参数,参数量每年保持着10倍的增长速度。 这种指数级的增长对芯片需求产生了巨大影响。传统上,AI训练所需的算力大约每6个月翻倍,而现在,为了支持日益庞大的模型,芯片需求的增长速度达到了每10倍算力增长,芯片规模需增加2.5倍。这一增长不仅对芯片制造商提出了挑战,也对资源消耗造成了压力。 以GPT-3为例,据报道,单次训练成本在大规模数据集上进行,需要35000块A100 GPU,而每天2.5亿次的访问量则需要30,382片A100 GPU同时运行。如果同时考虑训练和访问服务,每天需要的芯片数量高达65000块。以每块A100 GPU单价1.2万美元计算,仅初始投入就高达7.5亿美元。再加上每个A100 GPU功率400瓦,年电费支出接近1825万美元,全年运营成本接近8亿美元。