Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artículo me sorprendió 🤯
Todo el mundo en X sigue presumiendo sobre “LLM-as-a-judge” como si fuera algún oráculo de verdad mágico.
Pero este artículo muestra algo increíble:
La mayoría de las evaluaciones de LLM que has visto están sesgadas por diseño, no porque los modelos sean malos, sino porque el juez en sí mismo representa silenciosamente mal la puntuación.
Aquí está la parte loca:
Si un juez es un poco malo para detectar respuestas incorrectas (baja especificidad), infla la precisión.
Si es un poco malo para reconocer respuestas correctas (baja sensibilidad), desinfla la precisión.
Mismo modelo. Mismos resultados.
Pero obtienes dos jueces diferentes = dos “precisiones” diferentes.
Los autores muestran las matemáticas, las curvas de error y el punto exacto donde el juez comienza a mentirte sin querer.
Así que construyeron una solución:
Un estimador de complemento que ajusta la puntuación juzgada de vuelta a la puntuación real utilizando datos de calibración.
Además de un intervalo de confianza que finalmente refleja la incertidumbre tanto del conjunto de evaluación como del conjunto de calibración.
Aquí está lo que me sorprendió:
Incluso muestran cómo asignar muestras de calibración de manera eficiente para que no desperdicies presupuesto, algo de lo que nadie en la evaluación de LLM habla.
...

Parte superior
Clasificación
Favoritos

