Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El LLM como juez se ha convertido en una forma dominante de evaluar la calidad de un modelo para resolver una tarea, ya que funciona sin un conjunto de pruebas y maneja casos en los que las respuestas no son únicas.
Pero a pesar de lo ampliamente utilizado que se utiliza, casi todos los resultados reportados están muy sesgados.
Estoy emocionado de compartir nuestro preprint sobre cómo usar correctamente LLM como juez.
🧵
===
Entonces, ¿cómo es que la gente usa realmente LLM como juez?
La mayoría de la gente simplemente usa el LLM como evaluador y reporta la probabilidad empírica de que el LLM diga que la respuesta parece correcta.
Cuando el LLM es perfecto, esto funciona bien y proporciona un estimador imparcial.
Si el LLM no es perfecto, esto se rompe.
Consideremos un caso en el que el LLM evalúa correctamente el 80 por ciento de las veces.
Más concretamente, si la respuesta es correcta, el LLM dice "esto parece correcto" con un 80 por ciento de probabilidad, y el mismo 80 por ciento se aplica cuando la respuesta es realmente incorrecta.
En esta situación, no deberías informar de la probabilidad empírica, porque está sesgada. ¿Por qué?
Sea la probabilidad real de que el modelo probado sea correcto p.
Entonces, la probabilidad empírica de que el LLM diga "correcto" (= q) es
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Así que la estimación imparcial debería ser...



Populares
Ranking
Favoritas

