A OpenAI acaba de implementar o GPT-5.3-Codex-Spark no hardware de wafer-scale da Cerebras, alcançando mais de 1.000 tokens/segundo — aproximadamente 10-20x mais rápido do que a inferência em GPU. Isso não é uma melhoria incremental; é uma mudança arquitetónica fundamental que torna a colaboração em IA em tempo real possível pela primeira vez. --- O GARGALO QUE NINGUÉM FALA Aqui está o amargo segredo da inferência em IA: o seu cluster de GPU passa a maior parte do tempo *não computando*. Quando você executa um grande modelo de linguagem em GPUs NVIDIA, as multiplicações de matrizes reais são rápidas. O que te prejudica é: 1. Comunicação entre GPUs — Dividir um modelo de 175B+ parâmetros entre 8 GPUs significa constante troca de dados 2. Largura de banda de memória — HBM é rápido, mas ainda é off-chip 3. Sobrecarga de agrupamento — As GPUs otimizam para throughput, não para latência, então elas esperam para agrupar solicitações O resultado? Mesmo nos H100 de ponta, você está olhando para 50-150 tokens/segundo para modelos de fronteira. Isso é aceitável para cargas de trabalho assíncronas. É terrível para interação em tempo real. --- CEREBRAS: UM WAFER PARA GOVERNÁ-LOS A TODOS A Cerebras adotou uma abordagem radicalmente diferente: não construa chips, construa wafers. As especificações do WSE-3 (Wafer Scale Engine 3) são impressionantes:                     WSE-3           NVIDIA B200      Razão Tamanho do chip      46.255 mm²      ~800 mm²         57x...