Ludzie pytają, dlaczego upieram się przy GPU a nie przy Mac Studios/Mac minis Oto dlaczego: - Llama 3.1 70B BF16 na 8x RTX 3090 - 50+ równoczesnych zapytań - Wnioskowanie wsadowe - Utrzymana przepustowość Nie tylko to: > ~2k kontekstu na zapytanie (prompt) > ~1.8k tokenów w odpowiedzi > 2 min 29 sek na 50 odpowiedzi To jest terytorium GPU. Nie możesz tego zrobić na Macu. Przynajmniej na razie nie.