O LLM como juiz tornou-se uma forma dominante de avaliar quão bom um modelo é na resolução de uma tarefa, uma vez que funciona sem um conjunto de testes e lida com casos em que as respostas não são únicas. Mas apesar de quão amplamente isso é utilizado, quase todos os resultados reportados são altamente tendenciosos. Estou animado para compartilhar nosso preprint sobre como usar corretamente o LLM como juiz. 🧵 === Então, como as pessoas realmente usam o LLM como juiz? A maioria das pessoas apenas usa o LLM como avaliador e reporta a probabilidade empírica de que o LLM diga que a resposta parece correta. Quando o LLM é perfeito, isso funciona bem e fornece um estimador não tendencioso. Se o LLM não é perfeito, isso quebra. Considere um caso em que o LLM avalia corretamente 80 por cento das vezes. Mais especificamente, se a resposta está correta, o LLM diz "isso parece correto" com 80 por cento de probabilidade, e os mesmos 80 por cento se aplicam quando a resposta está realmente incorreta. Nessa situação, você não deve reportar a probabilidade empírica, porque ela é tendenciosa. Por quê? Deixe a verdadeira probabilidade do modelo testado ser correto ser p. Então a probabilidade empírica de que o LLM diga "correto" (= q) é q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Portanto, a estimativa não tendenciosa deve ser...