Je bent in een ML-interview bij Meta, en de interviewer vraagt: "Hoe serveren we Llama-3 aan 1.000 gelijktijdige gebruikers? Waarom raken we zonder geheugen, zelfs als het model op de GPU past?" Hier is hoe je antwoordt om dat $$$ te krijgen :