小模型可能因完全错误的原因而正确。 准确性指标告诉你模型得到了正确的答案。它们并不告诉你推理是否合理。对于自主代理,这一区别至关重要。 这项新研究揭示了一个隐藏的可靠性危机:7-9B参数模型中50-69%的正确答案包含根本性错误的推理。研究人员称之为“错误原因的正确现象”。 考虑一个财务计算。模型对“80的15%是多少?”的回答是“12”,这是正确的。但它的推理显示它乘以了0.2而不是0.15。输出是正确的。逻辑是错误的。在部署中,这种隐藏的失败会灾难性地累积。 该研究分析了Llama-3-8B、Mistral-7B和Qwen-2.5-7B在数学、多跳问答和常识任务上的10,734个推理轨迹。他们引入了推理完整性评分(RIS),这是一种基于过程的指标,评估每一步而不仅仅是最终输出。 RAG在中到大效应大小(Cohen's d = 0.23-0.93)下持续改善推理完整性。它通过提供外部支架,将计算基于检索到的证据,从而减少计算错误7.6%。 但这里有一个令人惊讶的发现:自我批评和验证提示会积极损害性能(d = -0.14到-0.33)。研究人员称之为“伪反思”。小模型缺乏真正的元认知能力。当被提示批评其推理时,它们实际上并没有反思。它们生成看似反思的文本,同时编造听起来合理但不正确的理由。 为了实现部署,他们将验证能力提炼为一个轻量级神经分类器,达到了0.86的F1分数,并比LLM评判者快100倍。这使得实时信任评估变得实用。 这里的教训是,仅仅依靠准确性对于部署小模型代理来说是危险的不足。基于过程的验证需要成为标准安全层。 论文: 在我们的学院学习如何构建有效的AI代理: