Mensen vragen waarom ik insister op GPU's en niet op Mac Studios/Mac minis Dit is waarom: - Llama 3.1 70B BF16 op 8x RTX 3090's - 50+ gelijktijdige verzoeken - Batch-inferentie - Duurzame doorvoer Niet alleen dat: > ~2k context per verzoek (prompt) > ~1.8k tokens in output > 2 minuten 29 seconden voor 50 antwoorden Dit is GPU-territorium. Dit kun je niet op een Mac doen. Tenminste, nog niet.