Du bist in einem ML-Interview bei Meta, und der Interviewer fragt: "Wie bedienen wir Llama-3 für 1.000 gleichzeitige Benutzer? Warum läuft der Speicher über, selbst wenn das Modell auf die GPU passt?" So antwortest du, um das $$$ zu bekommen :