Folk undrar varför jag insisterar på GPU:er och inte Mac Studios/Mac miniatyrer Det är därför: - Llama 3.1 70B BF16 på 8x RTX 3090 - 50+ samtidiga förfrågningar - Batchinferens - Uthållig genomströmning Inte nog med det: > ~2k kontext per förfrågan (prompt) > ~1,8 000 tokens i utdata > 2 minuter och 29 sekunder för 50 svar Det här är GPU-territorium. Det här kan du inte göra på en Mac. Inte än i alla fall.