Anda sedang dalam Wawancara ML di Meta, dan pewawancara bertanya: "Bagaimana kami melayani Llama-3 hingga 1.000 pengguna bersamaan? Mengapa kita kehabisan memori bahkan jika modelnya pas dengan GPU?" Berikut cara Anda menjawab untuk mendapatkan $$$ itu: