Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM als rechter is een dominante manier geworden om te evalueren hoe goed een model is in het oplossen van een taak, aangezien het werkt zonder een testset en omgaat met gevallen waarin antwoorden niet uniek zijn.
Maar ondanks hoe wijdverbreid dit is, zijn bijna alle gerapporteerde resultaten sterk bevooroordeeld.
Ik ben enthousiast om onze preprint te delen over hoe je LLM als rechter op de juiste manier kunt gebruiken.
🧵
===
Dus hoe gebruiken mensen LLM eigenlijk als rechter?
De meeste mensen gebruiken de LLM gewoon als evaluator en rapporteren de empirische waarschijnlijkheid dat de LLM zegt dat het antwoord correct lijkt.
Wanneer de LLM perfect is, werkt dit goed en geeft het een onbevooroordeelde schatter.
Als de LLM niet perfect is, gaat dit mis.
Overweeg een geval waarin de LLM correct evalueert 80 procent van de tijd.
Specifiek, als het antwoord correct is, zegt de LLM "dit lijkt correct" met 80 procent waarschijnlijkheid, en dezelfde 80 procent geldt wanneer het antwoord eigenlijk onjuist is.
In deze situatie moet je de empirische waarschijnlijkheid niet rapporteren, omdat deze bevooroordeeld is. Waarom?
Laat de werkelijke waarschijnlijkheid dat het geteste model correct is p zijn.
Dan is de empirische waarschijnlijkheid dat de LLM "correct" zegt (= q)
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Dus de onbevooroordeelde schatting zou moeten zijn...



Boven
Positie
Favorieten

