一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

作为评判者的LLM已成为评估模型解决任务能力的主要方式，因为它不依赖于测试集，并且能够处理答案不唯一的情况。但尽管这种方法被广泛使用，几乎所有报告的结果都存在高度偏见。很高兴分享我们关于如何正确使用LLM作为评判者的预印本。 🧵 === 那么人们实际上是如何使用LLM作为评判者的呢？大多数人只是将LLM用作评估者，并报告LLM认为答案看起来正确的经验概率。当LLM完美时，这种方法很好，并且提供了一个无偏估计。如果LLM不完美，这种方法就会失效。考虑一个案例，其中LLM正确评估的概率为80%。更具体地说，如果答案是正确的，LLM以80%的概率说“这看起来正确”，而当答案实际上是错误的时，LLM同样以80%的概率说“这看起来正确”。在这种情况下，你不应该报告经验概率，因为它是有偏的。为什么？设被测试模型正确的真实概率为p。那么LLM说“正确”的经验概率（= q）为： q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p 因此，无偏估计应该是：...