Du er i et ML-intervju hos Meta, og intervjueren spør: "Hvordan betjener vi Llama-3 til 1 000 samtidige brukere? Hvorfor går vi tom for minne selv om modellen passer på GPU-en?" Slik svarer du for å få de pengene: