Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A OpenAI acaba de implementar o GPT-5.3-Codex-Spark no hardware de wafer-scale da Cerebras, alcançando mais de 1.000 tokens/segundo — aproximadamente 10-20x
mais rápido do que a inferência em GPU.
Isso não é uma melhoria incremental; é uma
mudança arquitetónica fundamental que torna a colaboração em IA em tempo real possível pela primeira vez.
---
O GARGALO QUE NINGUÉM FALA
Aqui está o amargo segredo da inferência em IA: o seu cluster de GPU passa a maior parte do tempo *não computando*.
Quando você executa um grande modelo de linguagem em GPUs NVIDIA, as multiplicações de matrizes reais são rápidas. O que te prejudica é:
1. Comunicação entre GPUs — Dividir um modelo de 175B+ parâmetros entre 8 GPUs significa constante troca de dados
2. Largura de banda de memória — HBM é rápido, mas ainda é off-chip
3. Sobrecarga de agrupamento — As GPUs otimizam para throughput, não para latência, então elas esperam para agrupar solicitações
O resultado? Mesmo nos H100 de ponta, você está olhando para 50-150 tokens/segundo para modelos de fronteira. Isso é aceitável para cargas de trabalho assíncronas. É terrível para interação em tempo real.
---
CEREBRAS: UM WAFER PARA GOVERNÁ-LOS A TODOS
A Cerebras adotou uma abordagem radicalmente diferente: não construa chips, construa wafers.
As especificações do WSE-3 (Wafer Scale Engine 3) são impressionantes:
WSE-3 NVIDIA B200 Razão
Tamanho do chip 46.255 mm² ~800 mm² 57x...


Top
Classificação
Favoritos
