Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O LLM como juiz tornou-se uma forma dominante de avaliar quão bom um modelo é na resolução de uma tarefa, uma vez que funciona sem um conjunto de testes e lida com casos em que as respostas não são únicas.
Mas apesar de quão amplamente isso é utilizado, quase todos os resultados reportados são altamente tendenciosos.
Estou animado para compartilhar nosso preprint sobre como usar corretamente o LLM como juiz.
🧵
===
Então, como as pessoas realmente usam o LLM como juiz?
A maioria das pessoas apenas usa o LLM como avaliador e reporta a probabilidade empírica de que o LLM diga que a resposta parece correta.
Quando o LLM é perfeito, isso funciona bem e fornece um estimador não tendencioso.
Se o LLM não é perfeito, isso quebra.
Considere um caso em que o LLM avalia corretamente 80 por cento das vezes.
Mais especificamente, se a resposta está correta, o LLM diz "isso parece correto" com 80 por cento de probabilidade, e os mesmos 80 por cento se aplicam quando a resposta está realmente incorreta.
Nessa situação, você não deve reportar a probabilidade empírica, porque ela é tendenciosa. Por quê?
Deixe a verdadeira probabilidade do modelo testado ser correto ser p.
Então a probabilidade empírica de que o LLM diga "correto" (= q) é
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Portanto, a estimativa não tendenciosa deve ser...



Top
Classificação
Favoritos

