Nvidia kupuje Groq ze dvou důvodů podle mě.   1) Inference je rozdělení na předvyplnění a dekódování. SRAM architektury mají jedinečné výhody v dekódování pro pracovní zátěže, kde je výkon primárně funkcí šířky pásma paměti. Rubin CPX, Rubin a údajná varianta "Rubin SRAM" odvozená od Groq by měla dát Nvidii možnost kombinovat čipy tak, aby vytvořila optimální rovnováhu výkonu a nákladů pro každou pracovní zátěž. Rubin CPX je optimalizován pro rozsáhlá kontextová okna během předplnění díky extrémně vysoké kapacitě paměti a relativně nízké propustnosti GDDR DRAM. Rubin je tažným koněm pro trénink a vysoce hustotní, dávkové inferenční pracovní zátěže, přičemž jeho HBM DRAM dosahuje rovnováhy mezi šířkou pásma a kapacitou paměti. Groq-odvozený "Rubin SRAM" je optimalizován pro ultra-nízkolatenční úlohy inference agentického uvažování díky extrémně vysoké propustnosti paměti SRAM za cenu nižší kapacity paměti. V tom druhém případě se pravděpodobně použije buď CPX, nebo běžný Rubin jako předplnění.   2) Už dlouho je jasné, že architektury SRAM mohou dosáhnout tokenových metrik za sekundu mnohem vyšších než GPU, TPU nebo jakýkoli ASIC, který jsme dosud viděli. Extrémně nízká latence na jednoho uživatele na úkor propustnosti za dolar. Před 18 měsíci nebylo jasné, zda jsou koncoví uživatelé ochotni za tuto rychlost platit (SRAM dražší za token kvůli mnohem menším velikostem dávek). Z nedávných výsledků Cerebras a Groq je nyní zcela jasné, že uživatelé jsou ochotni za rychlost platit.   Zvyšuje to mou jistotu, že všechny ASICy kromě TPU, AI5 a Trainium budou nakonec zrušeny. Hodně štěstí při soutěžení se třemi variantami Rubin a několika souvisejícími síťovými čipy. I když to zní, že ASIC od OpenAI bude překvapivě dobrý (mnohem lepší než ASIC Meta a Microsoft).   Podívejme se, co AMD udělá. Intel už tímto směrem jde (mají předplnění, optimalizované SKU, a koupili SambaNova, která byla nejslabším konkurentem SRAM). Je docela legrační, že Meta koupila Rivos. A Cerebras, kde jsem zaujatý, je nyní ve velmi zajímavé a strategické pozici jako poslední (podle veřejné informace) nezávislý hráč SRAM, který byl před Groqem ve všech veřejných benchmarkech. Architektura racku Groq s "mnoha čipy" se však mnohem snáze integrovala s síťovým stackem Nvidia a možná i v jednom racku, zatímco Cerebras WSE musel být téměř samostatný rack.
Pro jasnost a jak někteří v odpovědích upozornili, měl bych poznamenat, že Nvidia ve skutečnosti Grok nekupuje. Jedná se o neexkluzivní licenční smlouvu, do které se připojili někteří inženýři Grok. Grok bude nadále provozovat svůj cloudový byznys jako nezávislá společnost, která je fakticky konkurentem Nvidii a jejich zákazníkům, ať už hyperscalerům nebo neocloudům. Net, net by měl být skvělý pro uživatele AI. Více konkurence, více žetonů. Veselé Vánoce a dárky pro všechny.
118