Đánh giá phần cứng SambaNova: Đánh giá phần cứng của Artificial Analysis hiện đã bao gồm DeepSeek R1 trên RDU SN40L của SambaNova, cho thấy hiệu suất vượt trội so với các chip NVIDIA H200 ở hầu hết các mức độ đồng thời được thử nghiệm. ➤ Hệ thống SN40L được thử nghiệm xử lý kích thước lô lên đến 256, đạt được thông lượng hệ thống khoảng ~4,700 token mỗi giây ở và vượt qua 256 yêu cầu đồng thời. ➤ Kết quả của SambaNova rất ấn tượng về tốc độ trên mỗi người dùng, đạt được tốc độ cao hơn đáng kể ở các mức độ đồng thời thấp hơn so với các hệ thống và cấu hình NVIDIA mà chúng tôi đã thử nghiệm. ➤ Giống như các thử nghiệm tăng tốc suy diễn khác của chúng tôi, chúng tôi sử dụng Bài kiểm tra Tải Hệ thống của Artificial Analysis để đo thông lượng hệ thống trên một loạt các mức độ đồng thời. Kết quả đầy đủ trên một loạt các mức độ đồng thời và tốc độ có sẵn trên trang Đánh giá phần cứng của Artificial Analysis. ➤ Những kết quả này kết hợp giữa thông lượng tối đa và cấu hình độ trễ tối thiểu để tạo ra hiệu suất tối ưu khi độ đồng thời tăng lên, tương tự như các thử nghiệm của chúng tôi với các hệ thống B200 của NVIDIA. Chúng tôi sẽ đánh giá và công bố các bài kiểm tra phần cứng SambaNova trên các mẫu khác trong thời gian tới.
Hệ thống của SambaNova hoạt động đặc biệt tốt về tốc độ truy vấn theo từng người dùng, với tốc độ đầu ra tối đa là 269 token mỗi giây cho các khối lượng công việc của người dùng đơn. Đây là tốc độ cao nhất mà chúng tôi đã đo được trên DeepSeek R1, và >3 lần tốc độ đầu ra tối đa của NVIDIA B200 sử dụng TensorRT-LLM
54