A OpenAI acabou de implantar o GPT-5.3-Codex-Spark no hardware em escala de wafer da Cerebras, alcançando 1.000+ tokens por segundo — aproximadamente 10-20x Mais rápido que inferência por GPU. Isso não é uma melhoria incremental; É um mudança arquitetônica fundamental que torna possível a colaboração em tempo real com IA pela primeira vez. --- O GARGALO DE QUE NINGUÉM FALA Aqui está o amargo segredo da inferência de IA: seu cluster de GPU passa a maior parte do tempo *sem computar*. Quando você roda um modelo de linguagem grande em GPUs NVIDIA, as multiplicações reais da matriz são rápidas. O que te mata é: 1. Comunicação entre GPUs — Sharding de um modelo de 175B+ parâmetros entre 8 GPUs significa embaralhamento constante de dados 2. Largura de banda de memória — HBM é rápido, mas ainda é fora do chip 3. Overhead de lote — GPUs otimizam para throughput, não para latência, então aguardam para batch as requisições O resultado? Mesmo em H100s de ponta, você está falando de 50-150 tokens por segundo para modelos Frontier. Isso é ótimo para cargas de trabalho assíncronas. É péssimo para interação em tempo real. --- CEREBRAS: UMA HÓSTIA PARA GOVERNAR TODOS A Cerebra adotou uma abordagem radicalmente diferente: não construir chips, construir wafers. As especificações do WSE-3 (Wafer Scale Engine 3) são impressionantes: WSE-3 NVIDIA B200 Ratio Tamanho do die 46.255 mm² ~800 mm² 57x...