通义千问2.5系列作为中国最强的开源模型,预训练数据从7个T token提升到18个T token,增强了基础能力。它通过SFT微调和离线、在线强化学习(特别是新方法GRPO)优化了性能,在长文本输出、结构化数据分析、指令遵循等方面显著提高。该系列包括开源的小模型及商用的大模型如通义千问2.5 turbo和plus,后者基于MOE架构,结合共享与专业专家网络,以更高效的方式处理大规模任务。