Episodio 1: Nvidia "adquiere" a Groq De @vikramskr y @theaustinlyons Conclusiones principales: - Las GPUs no están muertas. HBM no está muerto. - Las LPUs resuelven un problema diferente: inferencia determinista y de latencia ultrabaja para modelos pequeños. - Los grandes modelos de frontera aún requieren sistemas basados en HBM. - El movimiento de Nvidia amplía la superficie de su cartera de inferencia en lugar de reemplazar las GPUs. - El futuro de la infraestructura de IA es la optimización específica de la carga de trabajo y el despliegue impulsado por TCO. Temas clave: - Qué compró realmente Nvidia a Groq y por qué no es una adquisición tradicional - Por qué el acuerdo desencadenó afirmaciones de que las GPUs y HBM están obsoletas - Compensaciones arquitectónicas entre GPUs, TPUs, XPUs y LPUs - SRAM vs HBM. Velocidad, capacidad, coste y realidades de la cadena de suministro - Fundamentos de Groq LPU: VLIW, ejecución programada por compilador, determinismo, latencia ultrabaja - Por qué las LPUs tienen dificultades con modelos grandes y dónde destacan en su lugar - Casos de uso prácticos para la inferencia de hiper-baja latencia: -- Personalización de textos publicitarios en presupuestos de latencia de búsqueda -- Enrutamiento de modelos y orquestación de agentes -- Interfaces conversacionales y traducción en tiempo real -- Robótica e IA física en el límite -- Aplicaciones potenciales en IA-RAN e infraestructuras de telecomunicaciones - Memoria como espectro de diseño: solo SRAM, SRAM más DDR, SRAM más HBM - El enfoque creciente de Nvidia para hardware de inferencia en lugar de talla única para todos