作为评判者的LLM已成为评估模型解决任务能力的主要方式,因为它不依赖于测试集,并且能够处理答案不唯一的情况。 但尽管这种方法被广泛使用,几乎所有报告的结果都存在高度偏见。 很高兴分享我们关于如何正确使用LLM作为评判者的预印本。 🧵 === 那么人们实际上是如何使用LLM作为评判者的呢? 大多数人只是将LLM用作评估者,并报告LLM认为答案看起来正确的经验概率。 当LLM完美时,这种方法很好,并且提供了一个无偏估计。 如果LLM不完美,这种方法就会失效。 考虑一个案例,其中LLM正确评估的概率为80%。 更具体地说,如果答案是正确的,LLM以80%的概率说“这看起来正确”,而当答案实际上是错误的时,LLM同样以80%的概率说“这看起来正确”。 在这种情况下,你不应该报告经验概率,因为它是有偏的。为什么? 设被测试模型正确的真实概率为p。 那么LLM说“正确”的经验概率(= q)为: q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p 因此,无偏估计应该是:...