Estás en una entrevista de ML en Meta, y el entrevistador pregunta: "¿Cómo servimos Llama-3 a 1,000 usuarios concurrentes? ¿Por qué nos quedamos sin memoria incluso si el modelo cabe en la GPU?" Así es como respondes para conseguir esos $$$ :