Dnes používáme open source Nomos 1. S pouhými 30B parametry dosahuje letošního Putnamu, jedné z nejprestižnějších matematických soutěží na světě, 87/120. Toto skóre by bylo v roce 2024 na #2/3988 a představuje náš první krok @hillclimbai k vytvoření matematika pro AI v SOTA.
Nomos 1 dosáhl 87/120 s 8 perfektními skóre, zatímco Qwen3-30ba3b-Thinking-2507 dosáhl 24/120 při běhu ve stejném postroji za stejných podmínek, což naznačuje, že výkon je z velké části způsoben post-tréninkem a kvalitou dat, nikoli samotným postrojem.
Příspěvky byly naslepo hodnoceny lidským soutěžícím z Putnam top 200, který obdržel anonymizované příspěvky. Přesné soubory zaslané našim lidským anotátorům k hodnocení jsou dostupné zde deanonymizované: , spolu s runbooky použitými k jejich generování Použili jsme stejné časové limity jako soutěžící – 3 hodiny na každou z těchto dvou částí.
Náš open source systém uvažování se skládá z fáze řešení, kdy pracovníci zkoušejí nejméně vyřešený problém a sami se hodnotí, následované fází finalizace, která konsoliduje příspěvky a vybírá konečné podání pro každý problém. Použili jsme výchozí parametry vzorkování Qwen3 a žádný systémový prompt.
Náš model jsme zde otevřeně zpřístupnili a zde jsme náš argumentační mechanismus. Tento model byl trénován @rogershijin na infrastruktuře vytvořenou @theemozilla a @dmayhem93 s poradenstvím od @nullvaluetensor a vedením od @teknium a @theemozilla.
88,46K