熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
作為評判的 LLM 已經成為評估模型解決任務能力的主流方式,因為它不需要測試集,並且能處理答案不唯一的情況。
但儘管這種方法被廣泛使用,幾乎所有報告的結果都是高度偏見的。
很高興與大家分享我們的預印本,介紹如何正確使用 LLM 作為評判。
🧵
===
那麼人們實際上是如何使用 LLM 作為評判的呢?
大多數人只是將 LLM 作為評估者,並報告 LLM 認為答案看起來正確的經驗概率。
當 LLM 完美時,這樣做很好,並且提供了一個無偏的估計。
如果 LLM 不完美,這就會失效。
考慮一個情況,LLM 正確評估的概率為 80%。
更具體地說,如果答案是正確的,LLM 以 80% 的概率說「這看起來正確」,而當答案實際上不正確時,這 80% 的概率也適用。
在這種情況下,你不應該報告經驗概率,因為它是有偏的。為什麼?
讓被測模型正確的真實概率為 p。
那麼 LLM 說「正確」的經驗概率 (= q) 為
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
所以無偏估計應該是...



熱門
排行
收藏

