Nvidia sta acquistando Groq per due motivi, secondo me.   1) L'inferenza si sta disaggregando in prefill e decode. Le architetture SRAM hanno vantaggi unici nel decode per carichi di lavoro in cui le prestazioni sono principalmente una funzione della larghezza di banda della memoria. Rubin CPX, Rubin e il presunto "Rubin SRAM" derivato da Groq dovrebbero dare a Nvidia la possibilità di combinare e abbinare chip per creare il bilanciamento ottimale tra prestazioni e costi per ogni carico di lavoro. Rubin CPX è ottimizzato per finestre di contesto massicce durante il prefill grazie all'elevata capacità di memoria con la sua relativamente bassa larghezza di banda GDDR DRAM. Rubin è il cavallo di battaglia per l'addestramento e i carichi di lavoro di inferenza ad alta densità e in batch, con la sua HBM DRAM che trova un equilibrio tra larghezza di banda della memoria e capacità. Il "Rubin SRAM" derivato da Groq è ottimizzato per carichi di lavoro di inferenza agentica a latenza ultra-bassa grazie all'estremamente alta larghezza di banda della memoria di SRAM a scapito di una minore capacità di memoria. In quest'ultimo caso, probabilmente verrà utilizzato CPX o il normale Rubin per il prefill.   2) È chiaro da tempo che le architetture SRAM possono raggiungere metriche di token al secondo molto più elevate rispetto a GPU, TPU o qualsiasi ASIC che abbiamo visto finora. Latenza estremamente bassa per singolo utente a scapito del throughput per dollaro. 18 mesi fa era meno chiaro se gli utenti finali fossero disposti a pagare per questa velocità (SRAM è più costoso per token a causa delle dimensioni del batch molto più piccole). Ora è abbondantemente chiaro dai recenti risultati di Cerebras e Groq che gli utenti sono disposti a pagare per la velocità.   Aumenta la mia fiducia che tutti gli ASIC tranne TPU, AI5 e Trainium saranno eventualmente cancellati. Buona fortuna a competere con le 3 varianti di Rubin e i molteplici chip di rete associati. Anche se sembra che l'ASIC di OpenAI sarà sorprendentemente buono (molto meglio degli ASIC di Meta e Microsoft).   Vediamo cosa fa AMD. Intel si sta già muovendo in questa direzione (hanno un SKU ottimizzato per il prefill e hanno acquistato SambaNova, che era il concorrente SRAM più debole). È un po' divertente che Meta abbia acquistato Rivos. E Cerebras, dove sono di parte, è ora in una posizione molto interessante e altamente strategica come ultimo (per conoscenza pubblica) attore indipendente SRAM che era avanti a Groq in tutti i benchmark pubblici. Tuttavia, l'architettura rack "many chip" di Groq era molto più facile da integrare con lo stack di rete di Nvidia e forse anche all'interno di un singolo rack, mentre il WSE di Cerebras deve quasi essere un rack indipendente.
Per chiarezza e come alcuni hanno sottolineato nelle risposte, devo notare che Nvidia non sta effettivamente acquisendo Grok. Si tratta di un accordo di licenza non esclusivo con alcuni ingegneri di Grok che si uniscono a Nvidia. Grok continuerà a gestire la propria attività cloud come un'azienda indipendente che è effettivamente un concorrente di Nvidia e dei loro clienti, siano essi hyperscaler o neocloud. In sintesi, dovrebbe essere fantastico per gli utenti di AI. Maggiore concorrenza, più token. Buon Natale e Token per tutti.
116