OpenAI acaba de desplegar GPT-5.3-Codex-Spark en hardware a escala de obleas de Cerebras, logrando 1.000+ tokens por segundo — aproximadamente 10-20x Más rápido que la inferencia por GPU. Esto no es una mejora incremental; es un Un cambio arquitectónico fundamental que hace posible la colaboración en IA en tiempo real por primera vez. --- EL CUELLO DE BOTELLA DEL QUE NADIE HABLA Aquí está el amargo secreto de la inferencia de IA: tu clúster de GPU pasa la mayor parte del tiempo *sin computar*. Cuando ejecutas un modelo de lenguaje grande en GPUs NVIDIA, las multiplicaciones reales de matrices son rápidas. Lo que te mata es: 1. Comunicación entre GPU — Fragmentar un modelo de parámetros 175B+ entre 8 GPUs implica una barajarra constante de datos 2. Ancho de banda de memoria — HBM es rápido, pero sigue siendo fuera del chip 3. Overhead de procesamiento por lotes — las GPU optimizan para el rendimiento de producción, no para la latencia, por lo que esperan a hacer el lote de las solicitudes ¿El resultado? Incluso en los H100 de última generación, estás hablando de 50-150 tokens por segundo para los modelos Frontier. Eso está bien para cargas de trabajo asincrónicas. Es terrible para la interacción en tiempo real. --- CEREBRAS: UNA OBLEA PARA GOBERNARLOS A TODOS Cerebras adoptó un enfoque radicalmente diferente: no construir chips, construir obleas. Las especificaciones del WSE-3 (Wafer Scale Engine 3) son asombrosas: WSE-3 NVIDIA B200 Ratio Tamaño del troquel: 46.255 mm² ~800 mm² 57x...