Mọi người hỏi tại sao tôi lại khăng khăng sử dụng GPU và không phải Mac Studios/Mac minis Đây là lý do: - Llama 3.1 70B BF16 trên 8x RTX 3090s - 50+ yêu cầu đồng thời - Suy diễn theo lô - Thông lượng duy trì Không chỉ vậy: > ~2k ngữ cảnh cho mỗi yêu cầu (prompt) > ~1.8k token trong đầu ra > 2 phút 29 giây cho 50 phản hồi Đây là lãnh thổ của GPU. Bạn không thể làm điều này trên Mac. Ít nhất là chưa.