Episodul 1: Nvidia "Achiziționează" Groq Din @vikramskr și @theaustinlyons Concluzii de bază: - GPU-urile nu sunt moarte. HBM nu e mort. - LPU-urile rezolvă o problemă diferită: inferența deterministă, cu latență ultra-scăzută, pentru modele mici. - Modelele mari de frontieră necesită în continuare sisteme bazate pe HBM. - Mutarea Nvidia extinde aria de suprafață a portofoliului de inferență în loc să înlocuiască plăcile video. - Viitorul infrastructurii AI este optimizarea specifică sarcinii de lucru și implementarea condusă de TCO. Subiecte cheie: - Ce a cumpărat de fapt Nvidia de la Groq și de ce nu este o achiziție tradițională - De ce tranzacția a declanșat afirmații că GPU-urile și HBM sunt depășite - Compromisuri arhitecturale între GPU-uri, TPU-uri, XPU-uri și LPU-uri - SRAM vs HBM. Viteză, capacitate, costuri și realitățile lanțului de aprovizionare - Fundamentele Groq LPU: VLIW, execuție programată de compilator, determinism, latență ultra-scăzută - De ce LPU-urile se confruntă cu modele mari și unde excelează în schimb - Cazuri practice de utilizare pentru inferența cu latență hiper-scăzută: -- Personalizarea textului reclamelor la bugetele de latență în căutare -- Rutarea modelului și orchestrarea agenților -- Interfețe conversaționale și traducere în timp real -- Robotica și inteligența artificială fizică la margine -- Aplicații potențiale în infrastructura AI-RAN și telecomunicații - Memoria ca spectru de proiectare: doar SRAM, SRAM plus DDR, SRAM plus HBM - Abordarea în creștere a portofoliului Nvidia pentru hardware-ul de inferență, mai degrabă decât standardul universal