Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gavin Baker
Managing Partner & CIO, @atreidesmgmt. Marito, @l3eckyy. Nessun consiglio sugli investimenti, opinioni mie. https://t.co/pFe9KmNu9U
Nvidia sta acquistando Groq per due motivi, secondo me.
1) L'inferenza si sta disaggregando in prefill e decode. Le architetture SRAM hanno vantaggi unici nel decode per carichi di lavoro in cui le prestazioni sono principalmente una funzione della larghezza di banda della memoria. Rubin CPX, Rubin e il presunto "Rubin SRAM" derivato da Groq dovrebbero dare a Nvidia la possibilità di combinare e abbinare chip per creare il bilanciamento ottimale tra prestazioni e costi per ogni carico di lavoro. Rubin CPX è ottimizzato per finestre di contesto massicce durante il prefill grazie all'elevata capacità di memoria con la sua relativamente bassa larghezza di banda GDDR DRAM. Rubin è il cavallo di battaglia per l'addestramento e i carichi di lavoro di inferenza ad alta densità e in batch, con la sua HBM DRAM che trova un equilibrio tra larghezza di banda della memoria e capacità. Il "Rubin SRAM" derivato da Groq è ottimizzato per carichi di lavoro di inferenza agentica a latenza ultra-bassa grazie all'estremamente alta larghezza di banda della memoria di SRAM a scapito di una minore capacità di memoria. In quest'ultimo caso, probabilmente verrà utilizzato CPX o il normale Rubin per il prefill.
2) È chiaro da tempo che le architetture SRAM possono raggiungere metriche di token al secondo molto più elevate rispetto a GPU, TPU o qualsiasi ASIC che abbiamo visto finora. Latenza estremamente bassa per singolo utente a scapito del throughput per dollaro. 18 mesi fa era meno chiaro se gli utenti finali fossero disposti a pagare per questa velocità (SRAM è più costoso per token a causa delle dimensioni del batch molto più piccole). Ora è abbondantemente chiaro dai recenti risultati di Cerebras e Groq che gli utenti sono disposti a pagare per la velocità.
Aumenta la mia fiducia che tutti gli ASIC tranne TPU, AI5 e Trainium saranno eventualmente cancellati. Buona fortuna a competere con le 3 varianti di Rubin e i molteplici chip di rete associati. Anche se sembra che l'ASIC di OpenAI sarà sorprendentemente buono (molto meglio degli ASIC di Meta e Microsoft).
Vediamo cosa fa AMD. Intel si sta già muovendo in questa direzione (hanno un SKU ottimizzato per il prefill e hanno acquistato SambaNova, che era il concorrente SRAM più debole). È un po' divertente che Meta abbia acquistato Rivos.
E Cerebras, dove sono di parte, è ora in una posizione molto interessante e altamente strategica come ultimo (per conoscenza pubblica) attore indipendente SRAM che era avanti a Groq in tutti i benchmark pubblici. Tuttavia, l'architettura rack "many chip" di Groq era molto più facile da integrare con lo stack di rete di Nvidia e forse anche all'interno di un singolo rack, mentre il WSE di Cerebras deve quasi essere un rack indipendente.
231
Profondamente divertito da tutti i commenti sicuri secondo cui i datacenter nello spazio non funzionano da una prospettiva fisica e ingegneristica.
Elon gestisce due dei più grandi cluster GPU coerenti al mondo, SpaceX è responsabile di oltre il 90% della massa in orbita e SpaceX gestisce la più grande costellazione di satelliti nel sistema solare. Più di 10 anni dopo, nessun'altra azienda o paese può atterrare e riutilizzare costantemente razzi orbitali.
Ha dichiarato pubblicamente che "il modo più economico per fare calcoli AI sarà con satelliti alimentati a energia solare."
Forse, solo forse, la sua "analisi fisica o economica su carta" è superiore alla tua. Potrebbe anche esserci stata più di una "analisi su carta" dell'argomento fatta da alcuni dei migliori ingegneri del mondo. Forse hanno pensato a una soluzione di raffreddamento che non è venuta in mente ai cervelli galattici qui, anche dopo aver impiegato diversi minuti a riflettere attentamente sul problema.
Il CEO di Google concorda anche sul fatto che i datacenter nello spazio saranno "normali" entro un decennio.
Se attualmente non stai gestendo un grande datacenter AI, un grande cluster di satelliti e non hai atterrato un razzo, forse dovresti essere un po' meno veloce a presumere con sicurezza che Elon e Google siano *entrambi* in errore su questo argomento.
Soprattutto quando c'è un datacenter funzionante, sebbene molto piccolo, nello spazio *oggi* - l'installazione orbitale di Starcloud ha appena addestrato con successo un LLM. Ottimo nome, tra l'altro.
Sì, sono di parte su questi argomenti e, come sempre, il tempo dirà.
303
Principali
Ranking
Preferiti

