Hoy hemos abierto el código Nomos 1. Con solo 30B de parámetros, obtiene una puntuación de 87/120 en el Putnam de este año, una de las competiciones de matemáticas más prestigiosas del mundo. Esta puntuación ocuparía el puesto #2/3988 en 2024 y supone nuestro primer paso con @hillclimbai hacia la creación de un matemático de IA SOTA.
Nomos 1 logró un 87/120 con 8 puntuaciones perfectas, mientras que Qwen3-30ba3b-Thinking-2507 obtuvo 24/120 cuando se ejecutó con el mismo arnés y las mismas condiciones, lo que indica que el rendimiento se debe en gran parte al postentrenamiento y la calidad de los datos más que al arnés.
Las propuestas eran evaluadas a ciegas por un concursante humano del top 200 de Putnam, que recibía propuestas anonimizadas. Los archivos exactos enviados a nuestros anotadores humanos para la corrección están disponibles aquí des-anonimizados: , junto con los libros de ejecuciones utilizados para generarlos Usamos los mismos límites de tiempo que los competidores: 3 horas para cada una de las dos partes.
Nuestro sistema de razonamiento de código abierto consiste en una fase de resolución, en la que los trabajadores intentan un problema menos resuelto y autoevaluan, seguida de una fase de finalización, que consolida las propuestas para elegir una entrega final para cada problema. Usamos los parámetros de muestreo predeterminados de Qwen3 y no hubo aviso del sistema.
Aquí abrimos nuestro modelo y aquí nuestro arnés de razonamiento. Este modelo fue entrenado por @rogershijin en infraestructuras construidas por @theemozilla y @dmayhem93 con asesoramiento de @nullvaluetensor y liderazgo de @teknium y @theemozilla.
118.09K