Le mie impressioni sul primo giorno di Codex 5.3 rispetto a Opus 4.6: Obiettivo: possono davvero svolgere il lavoro di un ingegnere/ricercatore AI? TLDR: - Sì, possono (sorprendentemente). - Opus 4.6 > Codex-5.3-xhigh per questo compito - entrambi rappresentano un grande salto rispetto alla generazione precedente Compito: Ottimizzare il nanochat “speedrun GPT-2” di @karpathy - tempo di wall-clock per l'addestramento a livello GPT-2. Il codice è già pesantemente ottimizzato. Il #1 nella classifica raggiunge il 57,5% di MFU su 8×H100. Batterlo è davvero difficile. Risultati: 1. Entrambi si sono comportati come veri ingegneri AI. Hanno letto il codice, esplorato idee, eseguito mini benchmark, scritto piani e avviato un addestramento completo end-to-end mentre dormivo. 2. Mi sono svegliato con risultati concreti da Opus 4.6: - torch compile "max-autotune-no-cudagraphs mode" (+1,3% di velocità) - ottimizzatore Muon ns_steps=3 (+0,3% di velocità) - softcap BF16, salta il cast .float() (-1GB di memoria) Tempo totale di addestramento: 174,42m → 171,40m Codex-5.3-xhigh aveva idee interessanti e un MFU più alto, ma ha danneggiato la qualità finale. Sospetto che i limiti di contesto abbiano avuto importanza. L'ho visto raggiungere il 0% di contesto a un certo punto. 3. Ho eseguito lo stesso esperimento in precedenza su Opus 4.5 e Codex 5.2. Non ci sono stati guadagni significativi. Entrambi i nuovi modelli sono chiaramente migliori. Considerazioni generali: Preferisco Opus 4.6 per questo compito specifico. La finestra di contesto di 1M è importante. L'esperienza utente è migliore. La gente continua a dire “Codex 5.3 > Opus 4.6”, ma credo che modelli diversi brillino in diverse codebase e compiti. Due modelli forti sono una vittoria. Userò felicemente entrambi....