Nvidia koopt Groq om twee redenen, imo.   1) Inferentie wordt gedisaggregeerd in prefill en decode. SRAM-architecturen hebben unieke voordelen in decode voor workloads waarbij de prestaties voornamelijk een functie zijn van geheugendoorvoer. Rubin CPX, Rubin en de veronderstelde “Rubin SRAM”-variant afgeleid van Groq zouden Nvidia de mogelijkheid moeten geven om chips te mixen en matchen om de optimale balans tussen prestaties en kosten voor elke workload te creëren. Rubin CPX is geoptimaliseerd voor enorme contextvensters tijdens prefill als gevolg van super hoge geheugencapaciteit met zijn relatief lage bandbreedte GDDR DRAM. Rubin is de werkpaard voor training en hoge dichtheid, gebatchte inferentieworkloads met zijn HBM DRAM die een balans slaat tussen geheugendoorvoer en capaciteit. De Groq-afgeleide "Rubin SRAM" is geoptimaliseerd voor ultra-lage latentie agentic reasoning inferentieworkloads als gevolg van de extreem hoge geheugendoorvoer van SRAM ten koste van een lagere geheugencapaciteit. In het laatste geval zal waarschijnlijk ofwel CPX of de normale Rubin worden gebruikt voor prefill.   2) Het is al een lange tijd duidelijk dat SRAM-architecturen veel hogere token per seconde-metrics kunnen behalen dan GPU's, TPU's of enige ASIC die we tot nu toe hebben gezien. Uiterst lage latentie per individuele gebruiker ten koste van doorvoer per dollar. Het was 18 maanden geleden minder duidelijk of eindgebruikers bereid waren te betalen voor deze snelheid (SRAM is duurder per token vanwege veel kleinere batchgroottes). Het is nu overduidelijk uit de recente resultaten van Cerebras en Groq dat gebruikers bereid zijn te betalen voor snelheid.   Het vergroot mijn vertrouwen dat alle ASIC's behalve TPU, AI5 en Trainium uiteindelijk zullen worden geannuleerd. Veel succes met concurreren met de 3 Rubin-varianten en meerdere bijbehorende netwerkchips. Hoewel het klinkt alsof de ASIC van OpenAI verrassend goed zal zijn (veel beter dan de ASIC's van Meta en Microsoft).   Laten we zien wat AMD doet. Intel beweegt zich al in deze richting (ze hebben een prefill-geoptimaliseerde SKU en hebben SambaNova gekocht, wat de zwakste SRAM-concurrent was). Een beetje grappig dat Meta Rivos heeft gekocht. En Cerebras, waar ik bevooroordeeld ben, bevindt zich nu in een zeer interessante en strategische positie als de laatste (volgens publieke kennis) onafhankelijke SRAM-speler die voor Groq stond op alle publieke benchmarks. De “veel chip” rackarchitectuur van Groq was echter veel gemakkelijker te integreren met Nvidia’s netwerkstack en misschien zelfs binnen een enkel rack, terwijl de WSE van Cerebras bijna een onafhankelijk rack moet zijn.
Ter verduidelijking en zoals sommigen in de reacties hebben opgemerkt, moet ik opmerken dat Nvidia Grok niet daadwerkelijk overneemt. Het is een niet-exclusieve licentieovereenkomst waarbij enkele Grok-ingenieurs zich bij Nvidia voegen. Grok zal hun cloudbedrijf blijven runnen als een onafhankelijk bedrijf dat effectief een concurrent is van Nvidia en hun klanten, of het nu hyperscalers of neocloud is. Kortom, dit zou geweldig moeten zijn voor AI-gebruikers. Meer concurrentie, meer tokens. Vrolijk Kerstfeest en Tokens Voor Iedereen.
121