熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
小型模型可能因完全錯誤的原因而正確。
準確性指標告訴你模型得到了正確的答案,但並不告訴你推理是否合理。對於自主代理來說,這一區別至關重要。
這項新研究揭示了一個隱藏的可靠性危機:7-9B 參數模型中 50-69% 的正確答案包含根本錯誤的推理。研究人員稱之為「錯誤原因的正確現象」。
考慮一個財務計算。模型對「80 的 15% 是多少?」的回答是「12」,這是正確的。但它的推理顯示它乘以了 0.2 而不是 0.15。輸出是正確的,但邏輯是錯誤的。在部署中,這種隱藏的失敗會災難性地累積。
該研究分析了 Llama-3-8B、Mistral-7B 和 Qwen-2.5-7B 在數學、多步驟問答和常識任務上的 10,734 條推理痕跡。他們引入了推理完整性分數(RIS),這是一種基於過程的指標,評估每一步而不僅僅是最終輸出。
RAG 一直在以中到大效應大小(Cohen's d = 0.23-0.93)改善推理完整性。它通過提供外部支架,將計算基於檢索的證據,減少了 7.6% 的計算錯誤。
但這裡有一個驚人的發現:自我批評和驗證提示會積極損害性能(d = -0.14 到 -0.33)。研究人員稱之為「偽反思」。小型模型缺乏真正的元認知能力。當被提示批評其推理時,它們實際上並不反思。它們生成看似反思的文本,同時編造聽起來合理但不正確的理由。
為了實現部署,他們將驗證能力提煉成一個輕量級神經分類器,實現了 0.86 的 F1 分數,速度比 LLM 評判快 100 倍。這使得實時信任評估變得可行。
這裡的教訓是,僅僅依賴準確性對於部署小型模型代理來說是危險的不足。基於過程的驗證需要成為標準安全層。
論文:
在我們的學院學習如何構建有效的 AI 代理:

熱門
排行
收藏
