Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eseguendo Kimi-K2.5 su 8x RTX Pro 6000 Blackwells, con piani di testare eventualmente una configurazione ibrida di inferenza CPU/GPU tramite KTransformers+SGLang su 4x delle stesse GPU
Sono molto curioso di valutare le prestazioni complessive con la configurazione ibrida rispetto a un Kimi-K2.5 quantizzato distribuito su 4 GPU. La configurazione ibrida avrà bisogno di circa 768GB di RAM
Per iniziare, ecco un baseline su 8x GPU utilizzando un carico di lavoro in stile agente di codifica sintetico che mira a 2k-45k token di input, 80-3k token di output massimo, e con fino a 10 richieste concorrenti. Il flag --mem-fraction-static di SGLang è impostato a 0.90
Throughput medio di baseline:
~74 token di output/s @ 10 richieste concorrenti

Principali
Ranking
Preferiti
