Uruchamianie Kimi-K2.5 na 8x RTX Pro 6000 Blackwells, z planami przetestowania hybrydowego ustawienia inferencji CPU/GPU za pomocą KTransformers+SGLang na 4x tych samych GPU Bardzo ciekawi mnie ocena ogólnej wydajności hybrydowego ustawienia w porównaniu do skwantyzowanego dopasowania Kimi-K2.5 na 4 GPU. Hybrydowe ustawienie będzie potrzebować blisko 768GB RAM Na początek oto punkt odniesienia dla 8x GPU przy użyciu syntetycznego obciążenia stylu agenta kodującego, celującego w 2k-45k tokenów wejściowych, 80-3k maksymalnych tokenów wyjściowych i z maksymalnie 10 równoczesnymi żądaniami. Flaga --mem-fraction-static SGLang jest ustawiona na 0.90 Średnia przepustowość punktu odniesienia: ~74 tokeny wyjściowe/s przy 10 równoczesnych żądaniach