Nvidia achète Groq pour deux raisons, à mon avis.   1) L'inférence se désagrège en pré-remplissage et décodage. Les architectures SRAM ont des avantages uniques en décodage pour les charges de travail où la performance est principalement fonction de la bande passante mémoire. Rubin CPX, Rubin et le supposé variant "Rubin SRAM" dérivé de Groq devraient donner à Nvidia la capacité de mélanger et d'associer des puces pour créer l'équilibre optimal entre performance et coût pour chaque charge de travail. Rubin CPX est optimisé pour des fenêtres de contexte massives pendant le pré-remplissage grâce à sa capacité mémoire super élevée avec sa GDDR DRAM à bande passante relativement faible. Rubin est le cheval de bataille pour l'entraînement et les charges de travail d'inférence en haute densité et par lots, avec sa HBM DRAM trouvant un équilibre entre bande passante mémoire et capacité. Le "Rubin SRAM" dérivé de Groq est optimisé pour des charges de travail d'inférence de raisonnement agentique à latence ultra-faible grâce à la bande passante mémoire extrêmement élevée de la SRAM au prix d'une capacité mémoire inférieure. Dans ce dernier cas, soit CPX soit le Rubin normal sera probablement utilisé pour le pré-remplissage.   2) Il est clair depuis longtemps que les architectures SRAM peuvent atteindre des métriques de tokens par seconde beaucoup plus élevées que les GPU, TPU ou tout ASIC que nous avons encore vu. Latence extrêmement faible par utilisateur individuel au détriment du débit par dollar. Il était moins clair il y a 18 mois si les utilisateurs finaux étaient prêts à payer pour cette vitesse (la SRAM étant plus coûteuse par token en raison de tailles de lots beaucoup plus petites). Il est maintenant abondamment clair d'après les résultats récents de Cerebras et Groq que les utilisateurs sont prêts à payer pour la vitesse.   Cela augmente ma confiance que tous les ASIC sauf TPU, AI5 et Trainium seront finalement annulés. Bonne chance pour rivaliser avec les 3 variantes Rubin et plusieurs puces réseau associées. Bien que cela semble que l'ASIC d'OpenAI sera étonnamment bon (bien meilleur que les ASIC de Meta et Microsoft).   Voyons ce que fait AMD. Intel se dirige déjà dans cette direction (ils ont un SKU optimisé pour le pré-remplissage et ont acheté SambaNova, qui était le plus faible concurrent SRAM). C'est un peu drôle que Meta ait acheté Rivos. Et Cerebras, où je suis biaisé, est maintenant dans une position très intéressante et hautement stratégique en tant que dernier (selon les connaissances publiques) acteur indépendant de la SRAM qui était en avance sur Groq dans tous les benchmarks publics. L'architecture de rack "multi-puces" de Groq, cependant, était beaucoup plus facile à intégrer avec la pile réseau de Nvidia et peut-être même au sein d'un seul rack, tandis que le WSE de Cerebras doit presque être un rack indépendant.
Pour des raisons de clarté et comme certains l'ont souligné dans les réponses, je devrais noter qu'Nvidia n'acquiert pas réellement Grok. Il s'agit d'un accord de licence non exclusif avec certains ingénieurs de Grok rejoignant Nvidia. Grok continuera à faire fonctionner son activité cloud en tant qu'entreprise indépendante qui est effectivement un concurrent d'Nvidia et de ses clients, qu'ils soient hyperscalers ou neocloud. En résumé, cela devrait être génial pour les utilisateurs d'IA. Plus de concurrence, plus de tokens. Joyeux Noël et des tokens pour tous.
124