这篇论文让我震惊 🤯 X 上的每个人都在吹嘘“LLM 作为裁判”,就好像它是某种神奇的真理神谕。 但这篇论文展示了一些疯狂的事情: 你看到的大多数 LLM 评估都是设计上的偏见,不是因为模型不好,而是因为裁判本身悄悄地歪曲了分数。 这里有个疯狂的部分: 如果裁判在捕捉错误答案方面稍微差一点(低特异性),它会夸大准确性。 如果它在识别正确答案方面稍微差一点(低敏感性),它会降低准确性。 同一个模型。同样的输出。 但你得到两个不同的裁判 = 两个不同的“准确性”。 作者展示了数学、误差曲线,以及裁判开始无意中对你撒谎的确切点。 所以他们构建了一个修复方案: 一个插件估算器,使用校准数据将裁判分数调整回真实分数。 加上一个置信区间,最终反映了来自评估集和校准集的所有不确定性。 让我震惊的是: 他们甚至展示了如何有效分配校准样本,以便你不会浪费预算,这是 LLM 评估中没有人谈论的事情。 ...