Люди питають, чому я наполягаю на GPU а не Mac Studios/Mac mini Ось чому: - Llama 3.1 70B BF16 на 8x RTX 3090 - 50+ одночасних запитів - Пакетне виведення - Стійка пропускна здатність І не тільки це: > ~2k контексту для кожного запиту (запит) > ~1,8 тис. токенів на виході > 2 хвилини 29 сек для 50 відповідей Це сфера GPU. На Mac так не вийде. Принаймні, поки що.