Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI acaba de desplegar GPT-5.3-Codex-Spark en hardware a escala de obleas de Cerebras, logrando 1.000+ tokens por segundo — aproximadamente 10-20x
Más rápido que la inferencia por GPU.
Esto no es una mejora incremental; es un
Un cambio arquitectónico fundamental que hace posible la colaboración en IA en tiempo real por primera vez.
---
EL CUELLO DE BOTELLA DEL QUE NADIE HABLA
Aquí está el amargo secreto de la inferencia de IA: tu clúster de GPU pasa la mayor parte del tiempo *sin computar*.
Cuando ejecutas un modelo de lenguaje grande en GPUs NVIDIA, las multiplicaciones reales de matrices son rápidas. Lo que te mata es:
1. Comunicación entre GPU — Fragmentar un modelo de parámetros 175B+ entre 8 GPUs implica una barajarra constante de datos
2. Ancho de banda de memoria — HBM es rápido, pero sigue siendo fuera del chip
3. Overhead de procesamiento por lotes — las GPU optimizan para el rendimiento de producción, no para la latencia, por lo que esperan a hacer el lote de las solicitudes
¿El resultado? Incluso en los H100 de última generación, estás hablando de 50-150 tokens por segundo para los modelos Frontier. Eso está bien para cargas de trabajo asincrónicas. Es terrible para la interacción en tiempo real.
---
CEREBRAS: UNA OBLEA PARA GOBERNARLOS A TODOS
Cerebras adoptó un enfoque radicalmente diferente: no construir chips, construir obleas.
Las especificaciones del WSE-3 (Wafer Scale Engine 3) son asombrosas:
WSE-3 NVIDIA B200 Ratio
Tamaño del troquel: 46.255 mm² ~800 mm² 57x...


Populares
Ranking
Favoritas
