Nvidia đang mua Groq vì hai lý do theo ý kiến của tôi.   1) Inference đang phân tách thành prefill và decode. Các kiến trúc SRAM có những lợi thế độc đáo trong việc decode cho các khối lượng công việc mà hiệu suất chủ yếu là chức năng của băng thông bộ nhớ. Rubin CPX, Rubin và biến thể "Rubin SRAM" được cho là có nguồn gốc từ Groq sẽ cho phép Nvidia khả năng kết hợp và lựa chọn chip để tạo ra sự cân bằng tối ưu giữa hiệu suất và chi phí cho mỗi khối lượng công việc. Rubin CPX được tối ưu hóa cho các cửa sổ ngữ cảnh lớn trong quá trình prefill nhờ vào dung lượng bộ nhớ cực cao với băng thông GDDR DRAM tương đối thấp. Rubin là con ngựa làm việc cho việc đào tạo và các khối lượng công việc inference có mật độ cao, được nhóm lại với DRAM HBM của nó, tạo ra sự cân bằng giữa băng thông bộ nhớ và dung lượng. "Rubin SRAM" có nguồn gốc từ Groq được tối ưu hóa cho các khối lượng công việc inference lý luận tác nhân với độ trễ cực thấp nhờ vào băng thông bộ nhớ cực cao của SRAM với chi phí là dung lượng bộ nhớ thấp hơn. Trong trường hợp sau, có thể sẽ sử dụng CPX hoặc Rubin thông thường cho prefill.   2) Đã rõ ràng từ lâu rằng các kiến trúc SRAM có thể đạt được các chỉ số token mỗi giây cao hơn nhiều so với GPU, TPU hoặc bất kỳ ASIC nào mà chúng ta đã thấy. Độ trễ cực thấp cho từng người dùng cá nhân với chi phí thông lượng trên mỗi đô la. 18 tháng trước, không rõ ràng liệu người dùng cuối có sẵn sàng trả tiền cho tốc độ này hay không (SRAM đắt hơn mỗi token do kích thước lô nhỏ hơn nhiều). Giờ đây, từ các kết quả gần đây của Cerebras và Groq, rõ ràng là người dùng sẵn sàng trả tiền cho tốc độ.   Tăng cường sự tự tin của tôi rằng tất cả các ASIC ngoại trừ TPU, AI5 và Trainium cuối cùng sẽ bị hủy bỏ. Chúc may mắn trong việc cạnh tranh với 3 biến thể Rubin và nhiều chip mạng liên quan. Mặc dù có vẻ như ASIC của OpenAI sẽ tốt hơn một cách bất ngờ (tốt hơn nhiều so với các ASIC của Meta và Microsoft).   Hãy xem AMD sẽ làm gì. Intel đã bắt đầu di chuyển theo hướng này (họ có một SKU tối ưu hóa cho prefill và đã mua SambaNova, đối thủ SRAM yếu nhất). Thật buồn cười khi Meta mua Rivos. Và Cerebras, nơi tôi có thiên kiến, hiện đang ở trong một vị trí rất thú vị và chiến lược cao với tư cách là người chơi SRAM độc lập cuối cùng (theo kiến thức công khai) đã vượt trước Groq trên tất cả các bảng điểm công khai. Tuy nhiên, kiến trúc rack "nhiều chip" của Groq dễ dàng tích hợp hơn với hệ thống mạng của Nvidia và có thể thậm chí trong một rack duy nhất trong khi WSE của Cerebras gần như phải là một rack độc lập.
Để làm rõ và như một số người đã chỉ ra trong các phản hồi, tôi nên lưu ý rằng Nvidia thực sự không mua lại Grok. Đây là một thỏa thuận cấp phép không độc quyền với một số kỹ sư của Grok gia nhập Nvidia. Grok sẽ tiếp tục hoạt động kinh doanh đám mây của họ như một công ty độc lập, thực sự là một đối thủ cạnh tranh với Nvidia và khách hàng của họ, cho dù là hyperscaler hay neocloud. Tóm lại, điều này sẽ rất tốt cho người dùng AI. Cạnh tranh nhiều hơn, nhiều token hơn. Chúc mừng Giáng sinh và Token cho tất cả.
124