Kör en 70B-inferens med ett enda 4GB-GPU