LLM jako rozhodčí se stal dominantním způsobem, jak hodnotit, jak dobrý je model při řešení úkolu, protože funguje bez testovací sady a zpracovává případy, kde odpovědi nejsou jedinečné. Ale i přes to, jak široce se toto používá, téměř všechny hlášené výsledky jsou silně zaujaté. Těšíme se, že můžeme sdílet náš preprint o tom, jak správně používat LLM jako soudce. 🧵 === Jak tedy lidé vlastně používají LLM jako soudce? Většina lidí používá LLM jen jako hodnotitele a uvádí empirickou pravděpodobnost, že LLM řekne, že odpověď vypadá správně. Když je LLM dokonalý, funguje to dobře a poskytuje nestranný odhad. Pokud LLM není dokonalý, tento se rozbije. Uvažujme případ, kdy LLM vyhodnocuje správně 80 procent času. Konkrétněji, pokud je odpověď správná, LLM říká "to vypadá správně" s 80% pravděpodobností, a stejných 80 % platí, když je odpověď skutečně nesprávná. V této situaci byste neměli empirickou pravděpodobnost uvádět, protože je zaujatá. Proč? Nechť skutečná pravděpodobnost správné testovaného modelu je p. Pak empirická pravděpodobnost, že LLM řekne "správně" (= q), je q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p Takže nestranný odhad by měl být...