Mijn eerste indrukken van Codex 5.3 vs Opus 4.6: Doel: kunnen ze daadwerkelijk het werk van een AI-engineer/onderzoeker doen? TLDR: - Ja, ze kunnen (verrassend genoeg). - Opus 4.6 > Codex-5.3-xhigh voor deze taak - beide zijn een grote sprong ten opzichte van de vorige generatie Taak: Optimaliseer @karpathy's nanochat “GPT-2 speedrun” - wandklok tijd tot GPT-2-niveau training. De code is al zwaar geoptimaliseerd. #1 op de ranglijst haalt 57,5% MFU op 8×H100. Het is echt moeilijk om het te verslaan. Resultaten: 1. Beide gedroegen zich als echte AI-engineers. Ze lazen de code, verkenden ideeën, voerden mini-benchmarks uit, schreven plannen en startten volledige end-to-end training terwijl ik sliep. 2. Ik werd wakker met echte overwinningen van Opus 4.6: - torch compile "max-autotune-no-cudagraphs mode" (+1,3% snelheid) - Muon optimizer ns_steps=3 (+0,3% snelheid) - BF16 softcap, sla .float() cast over (-1GB geheugen) Totale trainingstijd: 174,42m → 171,40m Codex-5.3-xhigh had interessante ideeën en hogere MFU, maar beïnvloedde de uiteindelijke kwaliteit negatief. Ik vermoed dat contextlimieten een rol speelden. Ik zag het op een gegeven moment 0% context bereiken. 3. Ik voerde hetzelfde experiment eerder uit op Opus 4.5 en Codex 5.2. Er waren geen significante winsten. Beide nieuwe modellen zijn duidelijk beter. Algemene conclusie: Ik geef de voorkeur aan Opus 4.6 voor deze specifieke taak. Het 1M contextvenster is belangrijk. De gebruikerservaring is beter. Mensen blijven zeggen “Codex 5.3 > Opus 4.6”, maar ik geloof dat verschillende modellen beter presteren in verschillende codebases en taken. Twee sterke modellen is een overwinning. Ik gebruik ze met plezier allebei....