DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Hoje vamos disponibilizar o Nomos 1 em código aberto. Com apenas 30B de parâmetros, ele obtém 87/120 no Putnam deste ano, uma das competições de matemática mais prestigiadas do mundo. Essa pontuação ficaria em #2/3988 em 2024 e marca nosso primeiro passo com @hillclimbai para criar um matemático de IA SOTA.

O Nomos 1 alcançou 87/120 com 8 pontuações perfeitas, enquanto o Qwen3-30ba3b-Thinking-2507 obteve pontuação de 24/120 quando usado no mesmo arnês nas mesmas condições, indicando que o desempenho se deve em grande parte à qualidade pós-treinamento e dos dados, e não ao arnês.

As inscrições eram avaliadas cegamente por um competidor humano do top 200 do Putnam, que recebeu inscrições anonimizadas. Os arquivos exatos enviados aos nossos anotadores humanos para avaliação estão disponíveis aqui des-anonimizados: , junto com os livros de corridas usados para gerá-los Usamos os mesmos limites de tempo dos competidores - 3 horas para cada uma das duas partes.

Nosso sistema de raciocínio open source consiste em uma fase de resolução, onde os trabalhadores tentam um problema menos resolvido e se autoavaliam, seguida por uma fase de finalização, que consolida as submissões para escolher uma submissão final para cada problema. Usamos os parâmetros padrão de amostragem do Qwen3 e nenhum prompt do sistema.

Aqui disponibilizamos nosso modelo e nosso harness de raciocínio aqui. Esse modelo foi treinado por @rogershijin em infraestrutura construída por @theemozilla e @dmayhem93 com orientação de @nullvaluetensor e liderança de @teknium e @theemozilla.

118,1K

Melhores

Classificação

Favoritos