Bạn đang tham gia một buổi phỏng vấn ML tại Meta, và người phỏng vấn hỏi: "Chúng ta phục vụ Llama-3 cho 1.000 người dùng đồng thời như thế nào? Tại sao chúng ta lại hết bộ nhớ ngay cả khi mô hình vừa vặn trên GPU?" Đây là cách bạn trả lời để nhận được $$$ :