Folk spør hvorfor jeg insisterer på GPU-er og ikke Mac Studios/Mac-miniatyrer Dette er grunnen til: - Llama 3.1 70B BF16 på 8x RTX 3090 - 50+ samtidige forespørsler - Batch-inferens - Vedvarende gjennomstrømning Ikke bare det: > ~2k kontekst per forespørsel (prompt) > ~1,8 000 tokens i utgangen > 2 minutter og 29 sekunder for 50 svar Dette er GPU-territorium. Du kan ikke gjøre dette på en Mac. I hvert fall ikke ennå.