Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A OpenAI acabou de implantar o GPT-5.3-Codex-Spark no hardware em escala de wafer da Cerebras, alcançando 1.000+ tokens por segundo — aproximadamente 10-20x
Mais rápido que inferência por GPU.
Isso não é uma melhoria incremental; É um
mudança arquitetônica fundamental que torna possível a colaboração em tempo real com IA pela primeira vez.
---
O GARGALO DE QUE NINGUÉM FALA
Aqui está o amargo segredo da inferência de IA: seu cluster de GPU passa a maior parte do tempo *sem computar*.
Quando você roda um modelo de linguagem grande em GPUs NVIDIA, as multiplicações reais da matriz são rápidas. O que te mata é:
1. Comunicação entre GPUs — Sharding de um modelo de 175B+ parâmetros entre 8 GPUs significa embaralhamento constante de dados
2. Largura de banda de memória — HBM é rápido, mas ainda é fora do chip
3. Overhead de lote — GPUs otimizam para throughput, não para latência, então aguardam para batch as requisições
O resultado? Mesmo em H100s de ponta, você está falando de 50-150 tokens por segundo para modelos Frontier. Isso é ótimo para cargas de trabalho assíncronas. É péssimo para interação em tempo real.
---
CEREBRAS: UMA HÓSTIA PARA GOVERNAR TODOS
A Cerebra adotou uma abordagem radicalmente diferente: não construir chips, construir wafers.
As especificações do WSE-3 (Wafer Scale Engine 3) são impressionantes:
WSE-3 NVIDIA B200 Ratio
Tamanho do die 46.255 mm² ~800 mm² 57x...


Melhores
Classificação
Favoritos
