Sei in un colloquio per ML presso Meta, e l'intervistatore chiede: "Come serviamo Llama-3 a 1.000 utenti concorrenti? Perché esauriamo la memoria anche se il modello entra nella GPU?" Ecco come rispondi per ottenere quei $$$ :