Épisode 1 : Nvidia "acquiert" Groq De @vikramskr et @theaustinlyons Principaux enseignements : - Les GPU ne sont pas morts. HBM n'est pas mort. - Les LPU résolvent un problème différent : l'inférence déterministe à ultra-faible latence pour les petits modèles. - Les grands modèles de frontière nécessitent toujours des systèmes basés sur HBM. - Le mouvement de Nvidia élargit la surface de son portefeuille d'inférence plutôt que de remplacer les GPU. - L'avenir de l'infrastructure AI est l'optimisation spécifique aux charges de travail et le déploiement axé sur le TCO. Sujets clés : - Ce que Nvidia a réellement acheté à Groq et pourquoi ce n'est pas une acquisition traditionnelle - Pourquoi l'accord a déclenché des affirmations selon lesquelles les GPU et HBM sont obsolètes - Compromis architecturaux entre GPU, TPU, XPU et LPU - SRAM vs HBM. Vitesse, capacité, coût et réalités de la chaîne d'approvisionnement - Fondamentaux des LPU de Groq : VLIW, exécution planifiée par le compilateur, déterminisme, ultra-faible latence - Pourquoi les LPU ont du mal avec les grands modèles et où ils excellent à la place - Cas d'utilisation pratiques pour l'inférence à hyper-faible latence : -- Personnalisation des annonces publicitaires dans les budgets de latence de recherche -- Routage de modèles et orchestration d'agents -- Interfaces conversationnelles et traduction en temps réel -- Robotique et AI physique à la périphérie -- Applications potentielles dans l'AI-RAN et l'infrastructure télécom - Mémoire comme un spectre de conception : uniquement SRAM, SRAM plus DDR, SRAM plus HBM - L'approche croissante de Nvidia en matière de matériel d'inférence plutôt qu'une solution universelle