Você está em uma entrevista de ML na Meta, e o entrevistador pergunta: "Como atendemos Llama-3 a 1.000 usuários simultâneos? Por que ficamos sem memória mesmo que o modelo cabe na GPU?" Veja como você responde para conseguir esse $$$: