作為評判的 LLM 已經成為評估模型解決任務能力的主流方式,因為它不需要測試集,並且能處理答案不唯一的情況。 但儘管這種方法被廣泛使用,幾乎所有報告的結果都是高度偏見的。 很高興與大家分享我們的預印本,介紹如何正確使用 LLM 作為評判。 🧵 === 那麼人們實際上是如何使用 LLM 作為評判的呢? 大多數人只是將 LLM 作為評估者,並報告 LLM 認為答案看起來正確的經驗概率。 當 LLM 完美時,這樣做很好,並且提供了一個無偏的估計。 如果 LLM 不完美,這就會失效。 考慮一個情況,LLM 正確評估的概率為 80%。 更具體地說,如果答案是正確的,LLM 以 80% 的概率說「這看起來正確」,而當答案實際上不正確時,這 80% 的概率也適用。 在這種情況下,你不應該報告經驗概率,因為它是有偏的。為什麼? 讓被測模型正確的真實概率為 p。 那麼 LLM 說「正確」的經驗概率 (= q) 為 q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p 所以無偏估計應該是...