Você está em uma entrevista de ML na Meta, e o entrevistador pergunta: "Como servimos o Llama-3 para 1.000 usuários simultâneos? Por que ficamos sem memória mesmo que o modelo caiba na GPU?" Aqui está como você responde para conseguir aquele $$$ :