Jesteś na rozmowie kwalifikacyjnej na stanowisko ML w Meta, a rekruter pyta: "Jak obsłużyć Llama-3 dla 1,000 równoczesnych użytkowników? Dlaczego brakuje nam pamięci, nawet jeśli model mieści się na GPU?" Oto jak odpowiadasz, aby zdobyć te $$$ :