Nvidia cumpără Groq din două motive, după părerea mea.   1) Inferența se dezagrega în prefill și decod. Arhitecturile SRAM au avantaje unice în decodare pentru sarcini de lucru, unde performanța depinde în principal de lățimea de bandă a memoriei. Rubin CPX, Rubin și presupusa variantă "Rubin SRAM" derivată din Groq ar trebui să ofere Nvidia posibilitatea de a combina și potrivi cipuri pentru a crea echilibrul optim între performanță și cost pentru fiecare sarcină de lucru. Rubin CPX este optimizat pentru ferestre masive de context în timpul preumplerii, datorită capacității foarte mari de memorie datorită DRAM-ului său GDDR cu lățime de bandă relativ redusă. Rubin este calul de povară pentru antrenament și sarcini de inferență batched cu densitate mare, DRAM-ul său HBM reușind să găsească un echilibru între lățimea de bandă a memoriei și capacitate. SRAM-ul "Rubin" derivat din Groq este optimizat pentru sarcini de inferență de raționament agentic cu latență ultra-scăzută, ca urmare a lățimii de bandă extrem de mari a memoriei SRAM, cu prețul unei capacități mai mici de memorie. În acest ultim caz, probabil se vor folosi fie CPX, fie Rubin normal pentru preumplure.   2) A fost clar de mult timp că arhitecturile SRAM pot atinge metrici de token pe secundă mult mai mari decât GPU-urile, TPU-urile sau orice ASIC pe care l-am văzut până acum. Latență extrem de mică per utilizator individual, în detrimentul debitului pe dolar. Acum 18 luni era mai puțin clar dacă utilizatorii finali erau dispuși să plătească pentru această viteză (SRAM-ul fiind mai scump pe token din cauza loturilor mult mai mici). Este acum clar din rezultatele recente ale Cerebras și Groq că utilizatorii sunt dispuși să plătească pentru viteză.   Îmi crește încrederea că toate ASIC-urile, cu excepția TPU, AI5 și Trainium, vor fi anulate în cele din urmă. Mult noroc să concurezi cu cele 3 variante Rubin și mai multe cipuri de rețea asociate. Deși sună că ASIC-ul OpenAI va fi surprinzător de bun (mult mai bun decât ASIC-urile Meta și Microsoft).   Să vedem ce face AMD. Intel deja se mișcă în această direcție (au un SKU optimizat pentru pre-umplutură și au cumpărat SambaNova, care a fost cel mai slab competitor SRAM). E cam amuzant că Meta a cumpărat Rivos. Iar Cerebras, unde sunt părtinitor, se află acum într-o poziție foarte interesantă și extrem de strategică, fiind ultimul jucător independent SRAM (conform cunoștințelor publice) care a fost înaintea Groq la toate benchmark-urile publice. Totuși, arhitectura rack-ului "cu multe cipuri" a lui Groq a fost mult mai ușor de integrat cu stiva de rețea Nvidia și poate chiar într-un singur rack, în timp ce WSE de la Cerebras aproape că trebuie să fie un rack independent.
Pentru claritate și așa cum au subliniat unii în răspunsuri, ar trebui să menționez că Nvidia nu achiziționează de fapt Grok. Este un acord de licențiere neexclusiv, unii ingineri Grok alăturându-se Nvidia. Grok va continua să-și opereze afacerea de cloud ca o companie independentă, care este practic un competitor pentru Nvidia și clienții săi, fie că este vorba de hyperscaler sau neocloud. Net, net ar trebui să fie grozav pentru utilizatorii AI. Mai multă concurență, mai multe jetoane. Crăciun fericit și jetoane pentru toți.
121