Du är på en ML-intervju på Meta, och intervjuaren frågar: "Hur levererar vi Llama-3 till 1 000 samtidiga användare? Varför får vi slut på minne även om modellen får plats på GPU:n?" Så här svarar du för att få den där dollardollarn: