Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gavin Baker
Managing Partner & CIO, @atreidesmgmt. Marito, @l3eckyy. Nessun consiglio sugli investimenti, opinioni mie. https://t.co/pFe9KmNu9U
Amo @semianalysis, ma la concorrenza è buona per tutti e @fundabottom sta facendo un lavoro eccezionale sull'AI e sulle architetture dei data center in evoluzione che la supportano.

FundaAI5 gen, 23:48
Deep| $LITE: Il Nuovo Vassoio di Switch In-rack Introdotto da Google è in Realtà un Aspetto Positivo per OCS e Ottiche
FundaAI
Recentemente, c'è stata una vasta discussione riguardo all'introduzione da parte di Google di un nuovo vassoio di switch in-rack all'interno dei futuri rack TPU. L'opinione prevalente è che questo nuovo vassoio di switch, quando abbinato ai rack TPU venduti a clienti esterni, sostituisca la rete toroidale 3D con una rete CLOS, e quindi potrebbe essere negativo per OCS.
Abbiamo identificato questo cambiamento in una fase molto precoce e abbiamo condotto i nostri controlli sulla catena di approvvigionamento. Abbiamo scoperto che la maggior parte delle analisi fraintende significativamente la topologia di rete di Google, motivo per cui abbiamo scritto questa nota per chiarire la situazione. Questa confusione esiste da molto tempo, in gran parte perché l'architettura di rete di Google è genuinamente unica.
Rapporto Dettagliato

13
Nvidia sta acquistando Groq per due motivi, secondo me.
1) L'inferenza si sta disaggregando in prefill e decode. Le architetture SRAM hanno vantaggi unici nel decode per carichi di lavoro in cui le prestazioni sono principalmente una funzione della larghezza di banda della memoria. Rubin CPX, Rubin e il presunto "Rubin SRAM" derivato da Groq dovrebbero dare a Nvidia la possibilità di combinare e abbinare chip per creare il bilanciamento ottimale tra prestazioni e costi per ogni carico di lavoro. Rubin CPX è ottimizzato per finestre di contesto massicce durante il prefill grazie all'elevata capacità di memoria con la sua relativamente bassa larghezza di banda GDDR DRAM. Rubin è il cavallo di battaglia per l'addestramento e i carichi di lavoro di inferenza ad alta densità e in batch, con la sua HBM DRAM che trova un equilibrio tra larghezza di banda della memoria e capacità. Il "Rubin SRAM" derivato da Groq è ottimizzato per carichi di lavoro di inferenza agentica a latenza ultra-bassa grazie all'estremamente alta larghezza di banda della memoria di SRAM a scapito di una minore capacità di memoria. In quest'ultimo caso, probabilmente verrà utilizzato CPX o il normale Rubin per il prefill.
2) È chiaro da tempo che le architetture SRAM possono raggiungere metriche di token al secondo molto più elevate rispetto a GPU, TPU o qualsiasi ASIC che abbiamo visto finora. Latenza estremamente bassa per singolo utente a scapito del throughput per dollaro. 18 mesi fa era meno chiaro se gli utenti finali fossero disposti a pagare per questa velocità (SRAM è più costoso per token a causa delle dimensioni del batch molto più piccole). Ora è abbondantemente chiaro dai recenti risultati di Cerebras e Groq che gli utenti sono disposti a pagare per la velocità.
Aumenta la mia fiducia che tutti gli ASIC tranne TPU, AI5 e Trainium saranno eventualmente cancellati. Buona fortuna a competere con le 3 varianti di Rubin e i molteplici chip di rete associati. Anche se sembra che l'ASIC di OpenAI sarà sorprendentemente buono (molto meglio degli ASIC di Meta e Microsoft).
Vediamo cosa fa AMD. Intel si sta già muovendo in questa direzione (hanno un SKU ottimizzato per il prefill e hanno acquistato SambaNova, che era il concorrente SRAM più debole). È un po' divertente che Meta abbia acquistato Rivos.
E Cerebras, dove sono di parte, è ora in una posizione molto interessante e altamente strategica come ultimo (per conoscenza pubblica) attore indipendente SRAM che era avanti a Groq in tutti i benchmark pubblici. Tuttavia, l'architettura rack "many chip" di Groq era molto più facile da integrare con lo stack di rete di Nvidia e forse anche all'interno di un singolo rack, mentre il WSE di Cerebras deve quasi essere un rack indipendente.
331
Principali
Ranking
Preferiti

