Dziś udostępniamy kod źródłowy Nomos 1. Przy zaledwie 30 miliardach parametrów uzyskuje 87/120 w tegorocznym Putnamie, jednym z najbardziej prestiżowych konkursów matematycznych na świecie. Ten wynik uplasowałby nas na #2/3988 w 2024 roku i stanowi nasz pierwszy krok z @hillclimbai w kierunku stworzenia SOTA AI matematyka.
Nomos 1 osiągnął wynik 87/120 z 8 idealnymi wynikami, podczas gdy Qwen3-30ba3b-Thinking-2507 uzyskał 24/120, gdy był uruchamiany w tym samym systemie pod tymi samymi warunkami, co wskazuje, że wydajność w dużej mierze wynika z jakości danych i treningu po szkoleniu, a nie z systemu.
Prace były oceniane w sposób anonimowy przez człowieka, który był w pierwszej dwusetce konkursu Putnam i otrzymał zanonimizowane zgłoszenia. Dokładne pliki wysłane do naszych ludzkich oceniających do oceny są dostępne tutaj w wersji zanonimizowanej: , wraz z podręcznikami użytymi do ich wygenerowania. Użyliśmy tych samych limitów czasowych co konkurenci - 3 godziny na każdą z dwóch części.
Nasz system rozumowania open source składa się z fazy rozwiązywania, w której pracownicy próbują rozwiązać problem o najmniejszym stopniu trudności i dokonują samooceny, a następnie z fazy finalizacji, która konsoliduje zgłoszenia, aby wybrać ostateczne zgłoszenie dla każdego problemu. Użyliśmy domyślnych parametrów próbkowania Qwen3 i nie zastosowaliśmy żadnego systemowego podpowiedzi.
Udostępniamy nasz model jako open-source tutaj oraz nasze uzasadnienie tutaj. Ten model został wytrenowany przez @rogershijin na infrastrukturze zbudowanej przez @theemozilla i @dmayhem93 z doradztwem od @nullvaluetensor oraz przywództwem od @teknium i @theemozilla.
118,1K