DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Gavin Baker

Managing Partner & CIO, @atreidesmgmt. Marito, @l3eckyy. Nessun consiglio sugli investimenti, opinioni mie. https://t.co/pFe9KmNu9U

Nvidia sta acquistando Groq per due motivi, secondo me. 1) L'inferenza si sta disaggregando in prefill e decode. Le architetture SRAM hanno vantaggi unici nel decode per carichi di lavoro in cui le prestazioni sono principalmente una funzione della larghezza di banda della memoria. Rubin CPX, Rubin e il presunto "Rubin SRAM" derivato da Groq dovrebbero dare a Nvidia la possibilità di combinare e abbinare chip per creare il bilanciamento ottimale tra prestazioni e costi per ogni carico di lavoro. Rubin CPX è ottimizzato per finestre di contesto massicce durante il prefill grazie all'elevata capacità di memoria con la sua relativamente bassa larghezza di banda GDDR DRAM. Rubin è il cavallo di battaglia per l'addestramento e i carichi di lavoro di inferenza ad alta densità e in batch, con la sua HBM DRAM che trova un equilibrio tra larghezza di banda della memoria e capacità. Il "Rubin SRAM" derivato da Groq è ottimizzato per carichi di lavoro di inferenza agentica a latenza ultra-bassa grazie all'estremamente alta larghezza di banda della memoria di SRAM a scapito di una minore capacità di memoria. In quest'ultimo caso, probabilmente verrà utilizzato CPX o il normale Rubin per il prefill. 2) È chiaro da tempo che le architetture SRAM possono raggiungere metriche di token al secondo molto più elevate rispetto a GPU, TPU o qualsiasi ASIC che abbiamo visto finora. Latenza estremamente bassa per singolo utente a scapito del throughput per dollaro. 18 mesi fa era meno chiaro se gli utenti finali fossero disposti a pagare per questa velocità (SRAM è più costoso per token a causa delle dimensioni del batch molto più piccole). Ora è abbondantemente chiaro dai recenti risultati di Cerebras e Groq che gli utenti sono disposti a pagare per la velocità. Aumenta la mia fiducia che tutti gli ASIC tranne TPU, AI5 e Trainium saranno eventualmente cancellati. Buona fortuna a competere con le 3 varianti di Rubin e i molteplici chip di rete associati. Anche se sembra che l'ASIC di OpenAI sarà sorprendentemente buono (molto meglio degli ASIC di Meta e Microsoft). Vediamo cosa fa AMD. Intel si sta già muovendo in questa direzione (hanno un SKU ottimizzato per il prefill e hanno acquistato SambaNova, che era il concorrente SRAM più debole). È un po' divertente che Meta abbia acquistato Rivos. E Cerebras, dove sono di parte, è ora in una posizione molto interessante e altamente strategica come ultimo (per conoscenza pubblica) attore indipendente SRAM che era avanti a Groq in tutti i benchmark pubblici. Tuttavia, l'architettura rack "many chip" di Groq era molto più facile da integrare con lo stack di rete di Nvidia e forse anche all'interno di un singolo rack, mentre il WSE di Cerebras deve quasi essere un rack indipendente.

Principali

Ranking

Preferiti