Meine Eindrücke vom ersten Tag zu Codex 5.3 vs Opus 4.6: Ziel: Können sie tatsächlich die Arbeit eines KI-Ingenieurs/Forschers erledigen? TLDR: - Ja, sie können (überraschenderweise). - Opus 4.6 > Codex-5.3-xhigh für diese Aufgabe - beide sind ein großer Sprung im Vergleich zur letzten Generation Aufgabe: Optimiere @karpathy's nanochat „GPT-2 speedrun“ - Wand-Uhrzeit bis zum Training auf GPT-2-Niveau. Der Code ist bereits stark optimiert. #1 auf der Rangliste erreicht 57,5% MFU auf 8×H100. Es ist wirklich schwer, das zu schlagen. Ergebnisse: 1. Beide verhielten sich wie echte KI-Ingenieure. Sie lasen den Code, erkundeten Ideen, führten Mini-Benchmarks durch, schrieben Pläne und starteten das vollständige End-to-End-Training, während ich schlief. 2. Ich wachte mit echten Erfolgen von Opus 4.6 auf: - torch compile "max-autotune-no-cudagraphs mode" (+1,3% Geschwindigkeit) - Muon-Optimierer ns_steps=3 (+0,3% Geschwindigkeit) - BF16 softcap, .float() Cast überspringen (-1GB Speicher) Gesamte Trainingszeit: 174,42m → 171,40m Codex-5.3-xhigh hatte interessante Ideen und höhere MFU, aber beeinträchtigte die endgültige Qualität. Ich vermute, dass die Kontextgrenzen eine Rolle spielten. Ich sah, dass es einmal 0% Kontext erreichte. 3. Ich habe dasselbe Experiment früher mit Opus 4.5 und Codex 5.2 durchgeführt. Es gab keine bedeutenden Gewinne. Beide neuen Modelle sind eindeutig besser. Gesamteinschätzung: Ich bevorzuge Opus 4.6 für diese spezifische Aufgabe. Das 1M Kontextfenster ist wichtig. Die Benutzererfahrung ist besser. Die Leute sagen immer wieder „Codex 5.3 > Opus 4.6“, aber ich glaube, dass verschiedene Modelle in unterschiedlichen Codebasen und Aufgaben glänzen. Zwei starke Modelle sind ein Gewinn. Ich werde beide gerne nutzen....