Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artículo me 🤯 dejó impactado
Todos en X no paran de presumir de "LLM-como-juez" como si fuera un oráculo mágico de la verdad.
Pero este artículo muestra algo de locura:
La mayoría de las evaluaciones de LLM que has visto están sesgadas por el diseño, no porque los modelos sean malos, sino porque el propio juez tergiversa silenciosamente la puntuación.
Aquí viene la parte más loca:
Si un juez es un poco malo detectando respuestas incorrectas (baja especificidad), infla la precisión.
Si es un poco malo reconociendo respuestas correctas (baja sensibilidad), perde precisión.
Mismo modelo. Mismas salidas.
Pero tienes dos jueces diferentes = dos "exactitudes" distintas.
Los autores muestran las matemáticas, las curvas de error y el punto exacto en el que el juez empieza a mentirte sin querer.
Así que construyeron una solución:
Un estimador plug-in que ajusta la puntuación juzgada de nuevo a la puntuación real usando datos de calibración.
Además, un intervalo de confianza que finalmente refleja la incertidumbre tanto del conjunto de evaluación como del conjunto de calibración.
Esto es lo que me sorprendió:
Incluso muestran cómo asignar muestras de calibración de forma eficiente para que no se desperdicie presupuesto, algo de lo que nadie habla en la evaluación de LLM.
...

Populares
Ranking
Favoritas

