Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rulează Kimi-K2.5 pe 8x RTX Pro 6000 Blackwells, cu planuri de a testa în cele din urmă o configurație hibridă de inferență CPU/GPU prin KTransformers+SGLang pe 4x din aceleași plăci video
Sunt foarte curios să evaluez performanța generală cu configurația hibridă comparativ cu un Kimi-K2.5 cuantizat pe cele 4 plăci video. Configurația hibridă va necesita aproape 768GB RAM
Pentru început, iată un punct de referință pentru 8x GPU-uri folosind o sarcină de lucru de tip agent de codare sintetică, țintind tokenuri de intrare de 2k-45k, tokenuri de ieșire maxim 80-3k și cu până la 10 cereri simultane. Steagul --mem-fraction-static al SGLang este setat la 0,90
Debit mediu de bază:
~74 token-uri de ieșire/s @ 10 cereri concurente

Limită superioară
Clasament
Favorite
