Führen Sie eine 70B-Inferenz mit einer einzelnen 4GB-GPU durch