Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Denne artikkelen sjokkerte meg 🤯
Alle på X skryter stadig av «LLM-som-dommer» som om det var et magisk sannhetsorakel.
Men denne artikkelen viser noe vanvittig:
De fleste LLM-vurderinger du har sett er designmessig skjeve, ikke fordi modellene er dårlige, men fordi dommeren selv stille og rolig feilrepresenterer poengsummen.
Her kommer den ville delen:
Hvis en dommer er litt dårlig til å fange opp feil svar (lav spesifisitet), blåser det opp nøyaktigheten.
Hvis den er litt dårlig til å gjenkjenne riktige svar (lav følsomhet), svekker det nøyaktigheten.
Samme modell. Samme utganger.
Men du får to forskjellige dommere = to forskjellige «nøyaktigheter».
Forfatterne viser matematikken, feilkurvene, og det nøyaktige punktet hvor dommeren begynner å lyve for deg uten å mene det.
Så de bygde en løsning:
En plug-in-estimator som justerer den vurderte poengsummen tilbake til den reelle poengsummen ved hjelp av kalibreringsdata.
Pluss et konfidensintervall som til slutt reflekterer usikkerhet fra både evalueringssettet og kalibreringssettet.
Her er det som sjokkerte meg:
De viser til og med hvordan man kan fordele kalibreringsprøver effektivt slik at du ikke kaster bort budsjettet, noe ingen i LLM-evalueringen snakker om.
...

Topp
Rangering
Favoritter

