Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM som domare har blivit ett dominerande sätt att utvärdera hur bra en modell är på att lösa en uppgift, eftersom den fungerar utan testuppsättning och hanterar fall där svaren inte är unika.
Men trots hur brett detta används är nästan alla rapporterade resultat mycket partiska.
Ser fram emot att dela med oss av vårt preprint om hur man korrekt använder LLM som domare.
🧵
===
Så hur använder man egentligen LLM som domare?
De flesta använder bara LLM som utvärderare och rapporterar den empiriska sannolikheten att LLM säger att svaret ser rätt ut.
När LLM:n är perfekt fungerar detta bra och ger en opartisk skattare.
Om LLM:n inte är perfekt går detta sönder.
Tänk på ett fall där LLM:n utvärderar korrekt 80 procent av gångerna.
Mer specifikt, om svaret är korrekt, säger LLM "detta ser rätt ut" med 80 procents sannolikhet, och samma 80 procent gäller när svaret faktiskt är felaktigt.
I denna situation bör du inte rapportera den empiriska sannolikheten, eftersom den är snedvriden. Varför?
Låt den verkliga sannolikheten för att den testade modellen är korrekt vara p.
Då är den empiriska sannolikheten att LLM säger "korrekt" (= q)
q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p
Så den opartiska uppskattningen bör vara...



Topp
Rankning
Favoriter

