下面我们将分阶段详解 GPT 的整个训练流程。 首先第一步:预训练阶段预训练阶段的目标是得到一个基础模型,数据收集,这一阶段需要海量的数据。 第二步:监督式微调阶段在监督式微调阶段,需要收集少量但高质量的数据集。OpenAI 的方法是以人工方式收集由 prompt 和理想响应构成的数据。这些数据需要不少,一般需要几万个。 第三步:奖励建模阶段在这一阶段,需要将数据收集转变成比较的形式。这里给出了一个示例。对于同样的 prompt,即要求助理写一个能检查给定字符串是否为回文的程序或函数。再使用已经训练好的 SFT 模型生成多个结果,这里给出了三个。然后再让人类给这些结果排名。 第四步:强化学习阶段强化学习阶段做的事情就是基于奖励模型,使用强化学习算法对大量 prompt 对应的结果进行评分。