Вы на собеседовании по машинному обучению в Meta, и интервьюер спрашивает: "Как мы можем обслуживать Llama-3 для 1,000 одновременных пользователей? Почему у нас заканчивается память, даже если модель помещается на GPU?" Вот как вы отвечаете, чтобы получить эти $$$ :