
检索增强生成(RAG)通过整合外部知识库解决大语言模型的知识过时与幻觉问题,但评估其性能面临多维挑战:检索质量、上下文利用能力及答案本身质量。业界已确立三大核心评估维度:上下文相关性(检索内容是否精准聚焦)、答案忠实度(生成内容是否严格基于上下文)和答案相关性(输出是否直接回应用户问题)。为突破人工评估瓶颈,Ragas与ARES代表了自动化评估框架的两代演进。 Ragas:无参考评估的开创者 Ragas的核心创新是无参考评估,摆脱对黄金标准答案的依赖,通过LLM提示技术实现快速量化: 答案相关性:基于生成答案反向构造问题,计算与原始问题的语义相似度 上下文相关性:提取上下文中关键句子,其与总句数比例即为得分 忠实度:将答案拆解为独立声明,统计能被上下文支持的比例 该方法显著加速迭代周期,但存在明显局限:"LLM即裁判"模式对提示词敏感,性能不稳定,尤其在长上下文场景下表现不佳。 ARES:基于合成数据的精准评估 ARES通过微调定制化裁判模型实现质的飞跃,分为三阶段: 合成数据生成:利用LLM从知识库自动构建"问题-上下文-答案"三元组,特别设计"强负例"(语义相近但内容矛盾的样本)提升判别难度 裁判模型微调:为每个评估维度独立训练轻量级分类器(如DeBERTa),取代通用LLM,提升效率与可复现性 统计置信校准:引入预测能力推理(PPI),通过约150个人工标注样本生成置信区间,将评估从启发式评分升级为具备统计学严谨性的结论 实验表明,ARES在上下文相关性评估准确率上比Ragas平均高出59.3个百分点,性能更稳定。#RAG #评估 #评测