Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

METR no es 100% "seguro", pero sigue siendo uno de los referentes más valiosos porque está gestionado por un equipo competente y bien dotado de recursos que incluye muchas tareas diversas que no están disponibles públicamente para formarse. Otros benchmarks pueden ser 'manipulados' por IAs que saben las respuestas de antemano (resueltos por conjuntos privados de holdout) o haciendo RL en las tareas (resueltos teniendo una diversidad de tareas). ... Los benchmarks también pueden acabar fallando en algunos aspectos (por ejemplo, el SWE-Bench original antes de "SWE-Bench Verified" tenía algunos problemas accidentalmente irresolubles). Creo que diferentes referencias encajan en los niveles. METR se siente como una evaluación de nivel 1 de referencia de excelencia. ARC-AGI y FrontierMath tampoco son tan malos, probablemente como Tier 2. SWE-Bench parece un poco menos importante de analizar cuando ya tienes METR. Deseo desesperadamente más puntos de referencia más allá de matemáticas e ingeniería. Estoy entusiasmado con ARC-AGI-3 (el de videojuegos).

Populares

Ranking

Favoritas