Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Minhas impressões do primeiro dia sobre Codex 5.3 vs Opus 4.6:
Objetivo: eles conseguem realmente fazer o trabalho de um engenheiro/pesquisador de IA?
Resumo:
- Sim, eles (surpreendentemente) conseguem.
- Opus 4.6 > Codex-5.3-xhigh para esta tarefa
- ambos são um grande salto em relação à geração anterior
Tarefa: Otimizar o nanochat “GPT-2 speedrun” do @karpathy - tempo de relógio para treinamento ao nível do GPT-2. O código já está fortemente otimizado. O #1 no ranking atinge 57,5% MFU em 8×H100. Superá-lo é genuinamente difícil.
Resultados:
1. Ambos se comportaram como verdadeiros engenheiros de IA. Eles leram o código, exploraram ideias, executaram mini benchmarks, escreveram planos e iniciaram o treinamento completo enquanto eu dormia.
2. Acordei com resultados reais do Opus 4.6:
- torch compile "max-autotune-no-cudagraphs mode" (+1,3% de velocidade)
- otimizador Muon ns_steps=3 (+0,3% de velocidade)
- BF16 softcap, pular .float() cast (-1GB de memória)
Tempo total de treinamento: 174,42m → 171,40m
Codex-5.3-xhigh teve ideias interessantes e maior MFU, mas prejudicou a qualidade final. Suspeito que os limites de contexto importaram. Vi-o atingir 0% de contexto em um ponto.
3. Eu executei o mesmo experimento anteriormente no Opus 4.5 e Codex 5.2. Não houve ganhos significativos. Ambos os novos modelos são claramente melhores.
Considerações gerais:
Prefiro o Opus 4.6 para esta tarefa específica. A janela de contexto de 1M importa. A experiência do usuário é melhor.
As pessoas continuam dizendo “Codex 5.3 > Opus 4.6”, mas acredito que diferentes modelos se destacam em diferentes bases de código e tarefas.
Dois modelos fortes é uma vitória.
Usarei ambos com prazer....
Top
Classificação
Favoritos
