Eseguendo Kimi-K2.5 su 8x RTX Pro 6000 Blackwells, con piani di testare eventualmente una configurazione ibrida di inferenza CPU/GPU tramite KTransformers+SGLang su 4x delle stesse GPU Sono molto curioso di valutare le prestazioni complessive con la configurazione ibrida rispetto a un Kimi-K2.5 quantizzato distribuito su 4 GPU. La configurazione ibrida avrà bisogno di circa 768GB di RAM Per iniziare, ecco un baseline su 8x GPU utilizzando un carico di lavoro in stile agente di codifica sintetico che mira a 2k-45k token di input, 80-3k token di output massimo, e con fino a 10 richieste concorrenti. Il flag --mem-fraction-static di SGLang è impostato a 0.90 Throughput medio di baseline: ~74 token di output/s @ 10 richieste concorrenti