OpenAI acaba de desplegar GPT-5.3-Codex-Spark en el hardware de escala de oblea de Cerebras, logrando más de 1,000 tokens/segundo — aproximadamente 10-20 veces más rápido que la inferencia en GPU. Esto no es una mejora incremental; es un cambio arquitectónico fundamental que hace posible la colaboración en IA en tiempo real por primera vez. --- EL GARGANTA DE BOTELLA DE LA QUE NADIE HABLA Aquí está el amargo secreto de la inferencia de IA: tu clúster de GPU pasa la mayor parte de su tiempo *no computando*. Cuando ejecutas un modelo de lenguaje grande en GPUs de NVIDIA, las multiplicaciones de matrices reales son rápidas. Lo que te mata es: 1. Comunicación entre GPUs — Dividir un modelo de más de 175B parámetros entre 8 GPUs significa un constante intercambio de datos 2. Ancho de banda de memoria — HBM es rápido, pero sigue siendo fuera de chip 3. Sobrecarga de agrupamiento — Las GPUs se optimizan para el rendimiento, no para la latencia, por lo que esperan para agrupar solicitudes ¿El resultado? Incluso en los H100 de última generación, estás viendo entre 50-150 tokens/segundo para modelos de frontera. Eso está bien para cargas de trabajo asíncronas. Es terrible para la interacción en tiempo real. --- CEREBRAS: UNA OBLEA PARA GOBERNARLAS A TODAS Cerebras tomó un enfoque radicalmente diferente: no construir chips, construir obleas. Las especificaciones del WSE-3 (Wafer Scale Engine 3) son asombrosas:                     WSE-3           NVIDIA B200      Ratio Tamaño del chip      46,255 mm²      ~800 mm²         57x...