DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

METR no es 100% "seguro", pero sigue siendo uno de los benchmarks más valiosos porque es gestionado por un equipo competente y bien dotado de recursos que incluye muchas tareas diversas que no están disponibles públicamente para entrenar. Otros benchmarks pueden ser "manipulados" por las IA que conocen las respuestas de antemano (resuelto por conjuntos de retención privados) o haciendo RL en las tareas (resuelto al tener una diversidad de tareas). ...Los benchmarks también pueden terminar siendo problemáticos de algunas maneras (por ejemplo, el SWE-Bench original antes de "SWE-Bench Verified" tenía algunos problemas accidentalmente irresolubles). Creo que diferentes benchmarks encajan en niveles. METR se siente como una evaluación de estándar de oro de Nivel 1. ARC-AGI y FrontierMath tampoco son tan malos, probablemente como Nivel 2. SWE-Bench parece un poco menos importante de considerar cuando ya tienes METR. Desearía tener más benchmarks de alto nivel fuera de matemáticas e ingeniería. Estoy emocionado por ARC-AGI-3 (el de los videojuegos).

Parte superior

Clasificación

Favoritos