Vous êtes dans un entretien ML chez Meta, et l'intervieweur demande : "Comment servons-nous Llama-3 à 1 000 utilisateurs concurrents ? Pourquoi manquons-nous de mémoire même si le modèle tient sur le GPU ?" Voici comment vous répondez pour obtenir ces $$$ :