Die Leute fragen, warum ich auf GPUs bestehe und nicht auf Mac Studios/Mac minis Das ist der Grund: - Llama 3.1 70B BF16 auf 8x RTX 3090s - 50+ gleichzeitige Anfragen - Batch-Inferenz - Nachhaltiger Durchsatz Nicht nur das: > ~2k Kontext pro Anfrage (Prompt) > ~1.8k Tokens im Output > 2 Minuten 29 Sekunden für 50 Antworten Das ist GPU-Gebiet. Das kann man nicht auf einem Mac machen. Noch nicht zumindest.