Запускаю Kimi-K2.5 на 8x RTX Pro 6000 Blackwell, з планами в майбутньому протестувати гібридну систему виведення CPU/GPU через KTransformers+SGLang на 4 одних і тих же GPU Дуже цікаво оцінити загальну продуктивність гібридної конфігурації порівняно з квантизованим Kimi-K2.5 для чотирьох відеокарт. Гібридна система потребуватиме близько 768GB оперативної пам'яті Для початку ось базова лінія для 8x GPU, які використовують синтетичний кодовий агент, орієнтований на 2k-45k вхідних токенів, 80-3k максимальних виводних токенів і до 10 одночасних запитів. Прапорець --mem-fraction-static SGLang встановлений на 0.90 Базова середня пропускна здатність: ~74 вихідних токени/с @ 10 одночасних запитів