O LLM como juiz tornou-se uma forma dominante de avaliar a qualidade de um modelo para resolver uma tarefa, já que funciona sem um conjunto de testes e lida com casos em que as respostas não são únicas. Mas, apesar de essa ampla utilização, quase todos os resultados relatados são altamente tendenciosos. Animado para compartilhar nosso preprint sobre como usar corretamente o LLM como juiz. 🧵 === Então, como as pessoas realmente usam o LLM como juiz? A maioria das pessoas apenas usa o LLM como avaliador e relata a probabilidade empírica de que o LLM diga que a resposta parece correta. Quando o LLM está perfeito, isso funciona bem e fornece um estimador imparcial. Se o LLM não for perfeito, isso quebra. Considere um caso em que o LLM avalia corretamente 80% das vezes. Mais especificamente, se a resposta estiver correta, o LLM diz "isso parece correto" com 80% de probabilidade, e os mesmos 80% se aplicam quando a resposta está realmente errada. Nessa situação, você não deve reportar a probabilidade empírica, pois ela é tendenciosa. Por que? Seja a probabilidade real de o modelo testado estar correto como p. Então a probabilidade empírica de que o LLM diga "correto" (= q) é q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p Portanto, a estimativa imparcial deveria ser...