Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meine Eindrücke vom ersten Tag zu Codex 5.3 vs Opus 4.6:
Ziel: Können sie tatsächlich die Arbeit eines KI-Ingenieurs/Forschers erledigen?
TLDR:
- Ja, sie können (überraschenderweise).
- Opus 4.6 > Codex-5.3-xhigh für diese Aufgabe
- beide sind ein großer Sprung im Vergleich zur letzten Generation
Aufgabe: Optimiere @karpathy's nanochat „GPT-2 speedrun“ - Wand-Uhrzeit bis zum Training auf GPT-2-Niveau. Der Code ist bereits stark optimiert. #1 auf der Rangliste erreicht 57,5% MFU auf 8×H100. Es ist wirklich schwer, das zu schlagen.
Ergebnisse:
1. Beide verhielten sich wie echte KI-Ingenieure. Sie lasen den Code, erkundeten Ideen, führten Mini-Benchmarks durch, schrieben Pläne und starteten das vollständige End-to-End-Training, während ich schlief.
2. Ich wachte mit echten Erfolgen von Opus 4.6 auf:
- torch compile "max-autotune-no-cudagraphs mode" (+1,3% Geschwindigkeit)
- Muon-Optimierer ns_steps=3 (+0,3% Geschwindigkeit)
- BF16 softcap, .float() Cast überspringen (-1GB Speicher)
Gesamte Trainingszeit: 174,42m → 171,40m
Codex-5.3-xhigh hatte interessante Ideen und höhere MFU, aber beeinträchtigte die endgültige Qualität. Ich vermute, dass die Kontextgrenzen eine Rolle spielten. Ich sah, dass es einmal 0% Kontext erreichte.
3. Ich habe dasselbe Experiment früher mit Opus 4.5 und Codex 5.2 durchgeführt. Es gab keine bedeutenden Gewinne. Beide neuen Modelle sind eindeutig besser.
Gesamteinschätzung:
Ich bevorzuge Opus 4.6 für diese spezifische Aufgabe. Das 1M Kontextfenster ist wichtig. Die Benutzererfahrung ist besser.
Die Leute sagen immer wieder „Codex 5.3 > Opus 4.6“, aber ich glaube, dass verschiedene Modelle in unterschiedlichen Codebasen und Aufgaben glänzen.
Zwei starke Modelle sind ein Gewinn.
Ich werde beide gerne nutzen....
Top
Ranking
Favoriten
