Mine førsteinntrykk av Codex 5.3 vs Opus 4.6: Mål: kan de faktisk gjøre jobben til en AI-ingeniør/forsker? Kort oppsummert: - Ja, det kan de (overraskende nok). - Opus 4.6 > Codex-5.3-xhigh for denne oppgaven - begge er et stort hopp fra forrige generasjon Oppgave: Optimaliser @karpathy nanochat "GPT-2 speedrun" – veggklokketid til GPT-2-nivå trening. Koden er allerede kraftig optimalisert. #1 på topplisten når 57,5 % MFU på 8×H100. Å slå det er virkelig vanskelig. Resultater: 1. Begge oppførte seg som ekte AI-ingeniører. De leste koden, utforsket ideer, kjørte små benchmarks, skrev planer og startet full end-to-end-trening mens jeg sov. 2. Jeg våknet til ekte seire fra Opus 4.6: - Fakkel kompilerer "Max-Autotune-No-Cudagraphs Mode" (+1,3 % hastighet) - Myonoptimalisator ns_steps=3 (+0,3 % hastighet) - BF16 softcap, hopp over .float() cast (-1GB minne) Total treningstid: 174,42 m → 171,40 m Codex-5.3-xhigh hadde interessante ideer og høyere MFU, men gikk ut over sluttkvaliteten. Jeg mistenker at kontekstbegrensninger spilte noen rolle. Jeg så at den nådde 0 % kontekst på et tidspunkt. 3. Jeg kjørte det samme eksperimentet tidligere på Opus 4.5 og Codex 5.2. Det var ingen meningsfulle gevinster. Begge de nye modellene er tydelig bedre. Sammenlagt oppfatning: Jeg foretrekker Opus 4.6 til denne spesifikke oppgaven. Kontekstvinduet på 1 million er viktig. UX er bedre. Folk sier stadig «Codex 5.3 > Opus 4.6», men jeg mener ulike modeller skinner i forskjellige kodebaser og oppgaver. To sterke modeller er en seier. Jeg bruker gjerne begge....