Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le mie impressioni sul primo giorno di Codex 5.3 rispetto a Opus 4.6:
Obiettivo: possono davvero svolgere il lavoro di un ingegnere/ricercatore AI?
TLDR:
- Sì, possono (sorprendentemente).
- Opus 4.6 > Codex-5.3-xhigh per questo compito
- entrambi rappresentano un grande salto rispetto alla generazione precedente
Compito: Ottimizzare il nanochat “speedrun GPT-2” di @karpathy - tempo di wall-clock per l'addestramento a livello GPT-2. Il codice è già pesantemente ottimizzato. Il #1 nella classifica raggiunge il 57,5% di MFU su 8×H100. Batterlo è davvero difficile.
Risultati:
1. Entrambi si sono comportati come veri ingegneri AI. Hanno letto il codice, esplorato idee, eseguito mini benchmark, scritto piani e avviato un addestramento completo end-to-end mentre dormivo.
2. Mi sono svegliato con risultati concreti da Opus 4.6:
- torch compile "max-autotune-no-cudagraphs mode" (+1,3% di velocità)
- ottimizzatore Muon ns_steps=3 (+0,3% di velocità)
- softcap BF16, salta il cast .float() (-1GB di memoria)
Tempo totale di addestramento: 174,42m → 171,40m
Codex-5.3-xhigh aveva idee interessanti e un MFU più alto, ma ha danneggiato la qualità finale. Sospetto che i limiti di contesto abbiano avuto importanza. L'ho visto raggiungere il 0% di contesto a un certo punto.
3. Ho eseguito lo stesso esperimento in precedenza su Opus 4.5 e Codex 5.2. Non ci sono stati guadagni significativi. Entrambi i nuovi modelli sono chiaramente migliori.
Considerazioni generali:
Preferisco Opus 4.6 per questo compito specifico. La finestra di contesto di 1M è importante. L'esperienza utente è migliore.
La gente continua a dire “Codex 5.3 > Opus 4.6”, ma credo che modelli diversi brillino in diverse codebase e compiti.
Due modelli forti sono una vittoria.
Userò felicemente entrambi....
Principali
Ranking
Preferiti
