Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uruchamianie Kimi-K2.5 na 8x RTX Pro 6000 Blackwells, z planami przetestowania hybrydowego ustawienia inferencji CPU/GPU za pomocą KTransformers+SGLang na 4x tych samych GPU
Bardzo ciekawi mnie ocena ogólnej wydajności hybrydowego ustawienia w porównaniu do skwantyzowanego dopasowania Kimi-K2.5 na 4 GPU. Hybrydowe ustawienie będzie potrzebować blisko 768GB RAM
Na początek oto punkt odniesienia dla 8x GPU przy użyciu syntetycznego obciążenia stylu agenta kodującego, celującego w 2k-45k tokenów wejściowych, 80-3k maksymalnych tokenów wyjściowych i z maksymalnie 10 równoczesnymi żądaniami. Flaga --mem-fraction-static SGLang jest ustawiona na 0.90
Średnia przepustowość punktu odniesienia:
~74 tokeny wyjściowe/s przy 10 równoczesnych żądaniach

Najlepsze
Ranking
Ulubione
