Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM jako rozhodčí se stal dominantním způsobem, jak hodnotit, jak dobrý je model při řešení úkolu, protože funguje bez testovací sady a zpracovává případy, kde odpovědi nejsou jedinečné.
Ale i přes to, jak široce se toto používá, téměř všechny hlášené výsledky jsou silně zaujaté.
Těšíme se, že můžeme sdílet náš preprint o tom, jak správně používat LLM jako soudce.
🧵
===
Jak tedy lidé vlastně používají LLM jako soudce?
Většina lidí používá LLM jen jako hodnotitele a uvádí empirickou pravděpodobnost, že LLM řekne, že odpověď vypadá správně.
Když je LLM dokonalý, funguje to dobře a poskytuje nestranný odhad.
Pokud LLM není dokonalý, tento se rozbije.
Uvažujme případ, kdy LLM vyhodnocuje správně 80 procent času.
Konkrétněji, pokud je odpověď správná, LLM říká "to vypadá správně" s 80% pravděpodobností, a stejných 80 % platí, když je odpověď skutečně nesprávná.
V této situaci byste neměli empirickou pravděpodobnost uvádět, protože je zaujatá. Proč?
Nechť skutečná pravděpodobnost správné testovaného modelu je p.
Pak empirická pravděpodobnost, že LLM řekne "správně" (= q), je
q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p
Takže nestranný odhad by měl být...



Top
Hodnocení
Oblíbené

