Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METR no es 100% "seguro", pero sigue siendo uno de los referentes más valiosos porque está gestionado por un equipo competente y bien dotado de recursos que incluye muchas tareas diversas que no están disponibles públicamente para formarse.
Otros benchmarks pueden ser 'manipulados' por IAs que saben las respuestas de antemano (resueltos por conjuntos privados de holdout) o haciendo RL en las tareas (resueltos teniendo una diversidad de tareas). ... Los benchmarks también pueden acabar fallando en algunos aspectos (por ejemplo, el SWE-Bench original antes de "SWE-Bench Verified" tenía algunos problemas accidentalmente irresolubles).
Creo que diferentes referencias encajan en los niveles. METR se siente como una evaluación de nivel 1 de referencia de excelencia. ARC-AGI y FrontierMath tampoco son tan malos, probablemente como Tier 2. SWE-Bench parece un poco menos importante de analizar cuando ya tienes METR. Deseo desesperadamente más puntos de referencia más allá de matemáticas e ingeniería. Estoy entusiasmado con ARC-AGI-3 (el de videojuegos).
Populares
Ranking
Favoritas
