Lidé se ptají, proč trvám na GPU a ne Mac Studios/Mac miniatury Proto je to: - Llama 3.1 70B BF16 na 8x RTX 3090 - 50+ současných požadavků - Dávková inference - Trvalý propustnost A nejen to: > ~2k kontextu na požadavek (prompt) > ~1,8k tokenů na výstupu > 2 minuty 29 sekund na 50 odpovědí Tohle je oblast GPU. Na Macu to nejde. Aspoň zatím ne.