Tập 1: Nvidia "Mua" Groq Từ @vikramskr và @theaustinlyons Những điểm chính: - GPU không chết. HBM không chết. - LPU giải quyết một vấn đề khác: suy diễn xác định, độ trễ siêu thấp cho các mô hình nhỏ. - Các mô hình biên lớn vẫn cần hệ thống dựa trên HBM. - Động thái của Nvidia mở rộng diện tích danh mục suy diễn của mình thay vì thay thế GPU. - Tương lai của hạ tầng AI là tối ưu hóa theo khối lượng công việc và triển khai dựa trên TCO. Các chủ đề chính: - Nvidia thực sự đã mua gì từ Groq và tại sao đây không phải là một thương vụ mua bán truyền thống - Tại sao thỏa thuận này lại kích hoạt các tuyên bố rằng GPU và HBM đã lỗi thời - Các đánh đổi kiến trúc giữa GPU, TPU, XPU và LPU - SRAM so với HBM. Tốc độ, dung lượng, chi phí và thực tế chuỗi cung ứng - Các nguyên tắc cơ bản của Groq LPU: VLIW, thực thi theo lịch trình biên dịch, tính xác định, độ trễ siêu thấp - Tại sao LPU gặp khó khăn với các mô hình lớn và nơi chúng xuất sắc hơn - Các trường hợp sử dụng thực tế cho suy diễn siêu độ trễ thấp: -- Cá nhân hóa quảng cáo tại ngân sách độ trễ tìm kiếm -- Định tuyến mô hình và điều phối tác nhân -- Giao diện hội thoại và dịch thuật thời gian thực -- Robot và AI vật lý ở rìa -- Các ứng dụng tiềm năng trong AI-RAN và hạ tầng viễn thông - Bộ nhớ như một phổ thiết kế: chỉ SRAM, SRAM cộng với DDR, SRAM cộng với HBM - Cách tiếp cận danh mục ngày càng tăng của Nvidia đối với phần cứng suy diễn thay vì một kích thước phù hợp cho tất cả