LLM come giudice è diventato un modo dominante per valutare quanto sia buono un modello nel risolvere un compito, poiché funziona senza un set di test e gestisce casi in cui le risposte non sono uniche. Ma nonostante quanto sia ampiamente utilizzato, quasi tutti i risultati riportati sono altamente distorti. Siamo entusiasti di condividere il nostro preprint su come utilizzare correttamente LLM come giudice. 🧵 === Quindi, come usano realmente LLM come giudice? La maggior parte delle persone utilizza semplicemente LLM come valutatore e riporta la probabilità empirica che LLM dica che la risposta sembra corretta. Quando LLM è perfetto, questo funziona bene e fornisce un estimatore non distorto. Se LLM non è perfetto, questo si rompe. Considera un caso in cui LLM valuta correttamente l'80 percento delle volte. Più specificamente, se la risposta è corretta, LLM dice "questo sembra corretto" con una probabilità dell'80 percento, e lo stesso 80 percento si applica quando la risposta è effettivamente scorretta. In questa situazione, non dovresti riportare la probabilità empirica, perché è distorta. Perché? Lascia che la vera probabilità che il modello testato sia corretto sia p. Quindi la probabilità empirica che LLM dica "corretto" (= q) è q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Quindi l'estimatore non distorto dovrebbe essere...