Epizoda 1: Nvidia "získává" Groqa Od @vikramskr a @theaustinlyons Hlavní poznatky: - GPU nejsou mrtvé. HBM není mrtvý. - LPU řeší jiný problém: deterministickou, ultra-nízkolatencní inferenci pro malé modely. - Velké frontierové modely stále vyžadují systémy založené na HBM. - Přesun Nvidie rozšiřuje plochu portfolia inference místo nahrazování GPU. - Budoucnost infrastruktury AI je optimalizace specifická pro pracovní zátěž a nasazení řízené TCO. Klíčová témata: - Co Nvidia vlastně koupila od Groq a proč to není tradiční akvizice - Proč tato dohoda vyvolala tvrzení, že GPU a HBM jsou zastaralé - Architektonické kompromisy mezi GPU, TPU, XPU a LPU - SRAM vs HBM. Rychlost, kapacita, náklady a realita dodavatelského řetězce - Základy Groq LPU: VLIW, plánované provádění kompilátorem, determinismus, ultra-nízká latence - Proč mají LPU potíže s velkými modely a kde naopak vynikají - Praktické případy použití inference s hypernízkou latencí: -- Personalizace reklamních textů při rozpočtu na latenci vyhledávání -- Směrování modelů a orchestrace agentů -- Konverzační rozhraní a překlad v reálném čase -- Robotika a fyzická AI na okraji -- Potenciální aplikace v AI-RAN a telekomunikační infrastruktuře - Paměť jako návrhové spektrum: pouze SRAM, SRAM plus DDR, SRAM plus HBM - Rostoucí portfolio hardwaru Nvidia k inferenčnímu hardwaru místo univerzálního přístupu