Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi-K2.5 auf 8x RTX Pro 6000 Blackwells ausführen, mit dem Plan, schließlich ein CPU/GPU-Hybridinferenz-Setup über KTransformers+SGLang mit 4x derselben GPUs zu testen
Ich bin sehr neugierig, die Gesamtleistung des Hybrid-Setups im Vergleich zu einem quantisierten Kimi-K2.5-Anpassung über die 4 GPUs zu messen. Das Hybrid-Setup benötigt fast 768 GB RAM
Um zu beginnen, hier ist eine Basislinie über 8x GPUs mit einer synthetischen Coding-Agent-Stil-Arbeitslast, die auf 2k-45k Eingabetokens abzielt, 80-3k maximale Ausgabetokens und bis zu 10 gleichzeitige Anfragen. SGLangs --mem-fraction-static-Flag ist auf 0,90 gesetzt
Basislinien-Durchschnittsdurchsatz:
~74 Ausgabetokens/s bei 10 gleichzeitigen Anfragen

Top
Ranking
Favoriten
