Ви проходите співбесіду з машинного навчання в Meta, і інтерв'юер запитує: "Як нам обслуговувати Llama-3 для 1000 одночасних користувачів? Чому у нас закінчується пам'ять, навіть якщо модель підходить до відеокарти?» Ось як ви відповідаєте, щоб отримати ці $$$: