Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dnes používáme open source Nomos 1. S pouhými 30B parametry dosahuje letošního Putnamu, jedné z nejprestižnějších matematických soutěží na světě, 87/120.
Toto skóre by bylo v roce 2024 na #2/3988 a představuje náš první krok @hillclimbai k vytvoření matematika pro AI v SOTA.

Nomos 1 dosáhl 87/120 s 8 perfektními skóre, zatímco Qwen3-30ba3b-Thinking-2507 dosáhl 24/120 při běhu ve stejném postroji za stejných podmínek, což naznačuje, že výkon je z velké části způsoben post-tréninkem a kvalitou dat, nikoli samotným postrojem.

Příspěvky byly naslepo hodnoceny lidským soutěžícím z Putnam top 200, který obdržel anonymizované příspěvky.
Přesné soubory zaslané našim lidským anotátorům k hodnocení jsou dostupné zde deanonymizované: , spolu s runbooky použitými k jejich generování
Použili jsme stejné časové limity jako soutěžící – 3 hodiny na každou z těchto dvou částí.
Náš open source systém uvažování se skládá z fáze řešení, kdy pracovníci zkoušejí nejméně vyřešený problém a sami se hodnotí, následované fází finalizace, která konsoliduje příspěvky a vybírá konečné podání pro každý problém. Použili jsme výchozí parametry vzorkování Qwen3 a žádný systémový prompt.

Náš model jsme zde otevřeně zpřístupnili a zde jsme náš argumentační mechanismus.
Tento model byl trénován @rogershijin na infrastruktuře vytvořenou @theemozilla a @dmayhem93 s poradenstvím od @nullvaluetensor a vedením od @teknium a @theemozilla.
88,46K
Top
Hodnocení
Oblíbené

