8x RTX Pro 6000 Blackwell'lerde Kimi-K2.5 çalıştırıyorum ve sonunda KTransformers+SGLang ile aynı GPU'lardan 4x üzerinde CPU/GPU hibrit çıkarım kurulumunu test etmeyi planlıyorum Hibrit kurulumun genel performansını, 4 GPU arasında kuantize edilmiş Kimi-K2.5 uyumuyla karşılaştırmak için çok merak ediyorum. Hibrit kurulum yaklaşık 768GB RAM gerektiriyor Başlamak için, 2k-45k giriş tokenları, 80-3k maksimum çıkış tokenları ve 10 eşzamanlı isteğe sahip sentetik kodlama ajanı tarzı iş yükü kullanılarak 8x GPU arasında bir temel durum var. SGLang'ın --mem-fraction-static bayrağı 0.90'a ayarlanmıştır Temel ortalama veri kapasitesi: ~74 çıkış token/s @ 10 eşzamanlı istek