Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI acaba de desplegar GPT-5.3-Codex-Spark en el hardware de escala de oblea de Cerebras, logrando más de 1,000 tokens/segundo — aproximadamente 10-20 veces
más rápido que la inferencia en GPU.
Esto no es una mejora incremental; es un
cambio arquitectónico fundamental que hace posible la colaboración en IA en tiempo real por primera vez.
---
EL GARGANTA DE BOTELLA DE LA QUE NADIE HABLA
Aquí está el amargo secreto de la inferencia de IA: tu clúster de GPU pasa la mayor parte de su tiempo *no computando*.
Cuando ejecutas un modelo de lenguaje grande en GPUs de NVIDIA, las multiplicaciones de matrices reales son rápidas. Lo que te mata es:
1. Comunicación entre GPUs — Dividir un modelo de más de 175B parámetros entre 8 GPUs significa un constante intercambio de datos
2. Ancho de banda de memoria — HBM es rápido, pero sigue siendo fuera de chip
3. Sobrecarga de agrupamiento — Las GPUs se optimizan para el rendimiento, no para la latencia, por lo que esperan para agrupar solicitudes
¿El resultado? Incluso en los H100 de última generación, estás viendo entre 50-150 tokens/segundo para modelos de frontera. Eso está bien para cargas de trabajo asíncronas. Es terrible para la interacción en tiempo real.
---
CEREBRAS: UNA OBLEA PARA GOBERNARLAS A TODAS
Cerebras tomó un enfoque radicalmente diferente: no construir chips, construir obleas.
Las especificaciones del WSE-3 (Wafer Scale Engine 3) son asombrosas:
WSE-3 NVIDIA B200 Ratio
Tamaño del chip 46,255 mm² ~800 mm² 57x...


Parte superior
Clasificación
Favoritos
