Люди спрашивают, почему я настаиваю на GPU а не на Mac Studios/Mac minis Вот почему: - Llama 3.1 70B BF16 на 8x RTX 3090 - 50+ одновременных запросов - Пакетное инференс - Поддерживаемая пропускная способность И не только это: > ~2k контекста на запрос (подсказка) > ~1.8k токенов в выводе > 2 минуты 29 секунд на 50 ответов Это территория GPU. Вы не можете сделать это на Mac. По крайней мере, пока нет.