热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这篇论文让我震惊 🤯
X 上的每个人都在吹嘘“LLM 作为裁判”,就好像它是某种神奇的真理神谕。
但这篇论文展示了一些疯狂的事情:
你看到的大多数 LLM 评估都是设计上的偏见,不是因为模型不好,而是因为裁判本身悄悄地歪曲了分数。
这里有个疯狂的部分:
如果裁判在捕捉错误答案方面稍微差一点(低特异性),它会夸大准确性。
如果它在识别正确答案方面稍微差一点(低敏感性),它会降低准确性。
同一个模型。同样的输出。
但你得到两个不同的裁判 = 两个不同的“准确性”。
作者展示了数学、误差曲线,以及裁判开始无意中对你撒谎的确切点。
所以他们构建了一个修复方案:
一个插件估算器,使用校准数据将裁判分数调整回真实分数。
加上一个置信区间,最终反映了来自评估集和校准集的所有不确定性。
让我震惊的是:
他们甚至展示了如何有效分配校准样本,以便你不会浪费预算,这是 LLM 评估中没有人谈论的事情。
...

热门
排行
收藏

