Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM come giudice è diventato un modo dominante per valutare quanto sia buono un modello nel risolvere un compito, poiché funziona senza un set di test e gestisce casi in cui le risposte non sono uniche.
Ma nonostante quanto sia ampiamente utilizzato, quasi tutti i risultati riportati sono altamente distorti.
Siamo entusiasti di condividere il nostro preprint su come utilizzare correttamente LLM come giudice.
🧵
===
Quindi, come usano realmente LLM come giudice?
La maggior parte delle persone utilizza semplicemente LLM come valutatore e riporta la probabilità empirica che LLM dica che la risposta sembra corretta.
Quando LLM è perfetto, questo funziona bene e fornisce un estimatore non distorto.
Se LLM non è perfetto, questo si rompe.
Considera un caso in cui LLM valuta correttamente l'80 percento delle volte.
Più specificamente, se la risposta è corretta, LLM dice "questo sembra corretto" con una probabilità dell'80 percento, e lo stesso 80 percento si applica quando la risposta è effettivamente scorretta.
In questa situazione, non dovresti riportare la probabilità empirica, perché è distorta. Perché?
Lascia che la vera probabilità che il modello testato sia corretto sia p.
Quindi la probabilità empirica che LLM dica "corretto" (= q) è
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Quindi l'estimatore non distorto dovrebbe essere...



Principali
Ranking
Preferiti

