Nvidia compra Groq por dos razones, en mi opinión.   1) La inferencia consiste en desagregarse en prellenado y decodificación. Las arquitecturas SRAM tienen ventajas únicas en la decodificación para cargas de trabajo donde el rendimiento depende principalmente del ancho de banda de la memoria. Rubin CPX, Rubin y la supuesta variante "Rubin SRAM" derivada de Groq deberían dar a Nvidia la capacidad de mezclar y combinar chips para crear el equilibrio óptimo entre rendimiento y coste para cada carga de trabajo. Rubin CPX está optimizado para ventanas de contexto masivas durante el prefill gracias a su capacidad de memoria altísima gracias a su relativamente bajo ancho de banda GDDR DRAM. Rubin es el caballo de batalla para el entrenamiento y cargas de inferencia en lotes de alta densidad, con su DRAM HBM que equilibra el ancho de banda de memoria y la capacidad. La "SRAM Rubin" derivada de Groq está optimizada para cargas de trabajo de inferencia por razonamiento agente de latencia ultra baja debido al ancho de banda de memoria extremadamente alto de la SRAM, a costa de una menor capacidad de memoria. En este último caso, probablemente se usarán CPX o el Rubin normal para el prellenado.   2) Ha estado claro desde hace mucho tiempo que las arquitecturas SRAM pueden alcanzar métricas de token por segundo mucho más altas que las GPUs, TPUs o cualquier ASIC que hayamos visto hasta ahora. Latencia extremadamente baja por usuario individual a costa del rendimiento por dólar. Hace 18 meses no estaba tan claro si los usuarios finales estaban dispuestos a pagar por esta velocidad (la SRAM era más cara por token debido a los lotes mucho más pequeños). Ahora está más que claro por los resultados recientes de Cerebras y Groq que los usuarios están dispuestos a pagar por la rapidez.   Aumenta mi confianza en que todos los ASICs excepto TPU, AI5 y Trainium acabarán siendo cancelados. Suerte compitiendo con las 3 variantes Rubin y los múltiples chips de red asociados. Aunque parece que el ASIC de OpenAI será sorprendentemente bueno (mucho mejor que los ASIC Meta y Microsoft).   Veamos qué hace AMD. Intel ya avanza en esta dirección (tienen un SKU optimizado para prellenado y compraron SambaNova, que era el competidor SRAM más débil). Es curioso que Meta comprara Rivos. Y Cerebras, donde tengo un sesgo, está ahora en una posición muy interesante y altamente estratégica como el último (según conocimiento público) jugador independiente de SRAM que estuvo por delante de Groq en todos los benchmarks públicos. Sin embargo, la arquitectura de rack "muchos chips" de Groq era mucho más fácil de integrar con la pila de red de Nvidia e incluso dentro de un solo rack, mientras que el WSE de Cerebras casi tiene que ser un rack independiente.
Para mayor claridad y como algunos han señalado en las respuestas, debo señalar que Nvidia en realidad no está adquiriendo Grok. Es un acuerdo de licencia no exclusivo con algunos ingenieros de Grok uniéndose a Nvidia. Grok seguirá operando su negocio de nube como una empresa independiente que, en la práctica, es competencia de Nvidia y sus clientes, ya sean hyperscaler o neocloud. Net, internet debería ser genial para usuarios de IA. Más competencia, más fichas. Feliz Navidad y Regalos para Todos.
145