Minhas impressões do primeiro dia sobre Codex 5.3 vs Opus 4.6: Objetivo: eles conseguem realmente fazer o trabalho de um engenheiro/pesquisador de IA? Resumo: - Sim, eles (surpreendentemente) conseguem. - Opus 4.6 > Codex-5.3-xhigh para esta tarefa - ambos são um grande salto em relação à geração anterior Tarefa: Otimizar o nanochat “GPT-2 speedrun” do @karpathy - tempo de relógio para treinamento ao nível do GPT-2. O código já está fortemente otimizado. O #1 no ranking atinge 57,5% MFU em 8×H100. Superá-lo é genuinamente difícil. Resultados: 1. Ambos se comportaram como verdadeiros engenheiros de IA. Eles leram o código, exploraram ideias, executaram mini benchmarks, escreveram planos e iniciaram o treinamento completo enquanto eu dormia. 2. Acordei com resultados reais do Opus 4.6: - torch compile "max-autotune-no-cudagraphs mode" (+1,3% de velocidade) - otimizador Muon ns_steps=3 (+0,3% de velocidade) - BF16 softcap, pular .float() cast (-1GB de memória) Tempo total de treinamento: 174,42m → 171,40m Codex-5.3-xhigh teve ideias interessantes e maior MFU, mas prejudicou a qualidade final. Suspeito que os limites de contexto importaram. Vi-o atingir 0% de contexto em um ponto. 3. Eu executei o mesmo experimento anteriormente no Opus 4.5 e Codex 5.2. Não houve ganhos significativos. Ambos os novos modelos são claramente melhores. Considerações gerais: Prefiro o Opus 4.6 para esta tarefa específica. A janela de contexto de 1M importa. A experiência do usuário é melhor. As pessoas continuam dizendo “Codex 5.3 > Opus 4.6”, mas acredito que diferentes modelos se destacam em diferentes bases de código e tarefas. Dois modelos fortes é uma vitória. Usarei ambos com prazer....