Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mijn eerste indrukken van Codex 5.3 vs Opus 4.6:
Doel: kunnen ze daadwerkelijk het werk van een AI-engineer/onderzoeker doen?
TLDR:
- Ja, ze kunnen (verrassend genoeg).
- Opus 4.6 > Codex-5.3-xhigh voor deze taak
- beide zijn een grote sprong ten opzichte van de vorige generatie
Taak: Optimaliseer @karpathy's nanochat “GPT-2 speedrun” - wandklok tijd tot GPT-2-niveau training. De code is al zwaar geoptimaliseerd. #1 op de ranglijst haalt 57,5% MFU op 8×H100. Het is echt moeilijk om het te verslaan.
Resultaten:
1. Beide gedroegen zich als echte AI-engineers. Ze lazen de code, verkenden ideeën, voerden mini-benchmarks uit, schreven plannen en startten volledige end-to-end training terwijl ik sliep.
2. Ik werd wakker met echte overwinningen van Opus 4.6:
- torch compile "max-autotune-no-cudagraphs mode" (+1,3% snelheid)
- Muon optimizer ns_steps=3 (+0,3% snelheid)
- BF16 softcap, sla .float() cast over (-1GB geheugen)
Totale trainingstijd: 174,42m → 171,40m
Codex-5.3-xhigh had interessante ideeën en hogere MFU, maar beïnvloedde de uiteindelijke kwaliteit negatief. Ik vermoed dat contextlimieten een rol speelden. Ik zag het op een gegeven moment 0% context bereiken.
3. Ik voerde hetzelfde experiment eerder uit op Opus 4.5 en Codex 5.2. Er waren geen significante winsten. Beide nieuwe modellen zijn duidelijk beter.
Algemene conclusie:
Ik geef de voorkeur aan Opus 4.6 voor deze specifieke taak. Het 1M contextvenster is belangrijk. De gebruikerservaring is beter.
Mensen blijven zeggen “Codex 5.3 > Opus 4.6”, maar ik geloof dat verschillende modellen beter presteren in verschillende codebases en taken.
Twee sterke modellen is een overwinning.
Ik gebruik ze met plezier allebei....
Boven
Positie
Favorieten
