Kimi-K2.5 auf 8x RTX Pro 6000 Blackwells ausführen, mit dem Plan, schließlich ein CPU/GPU-Hybridinferenz-Setup über KTransformers+SGLang mit 4x derselben GPUs zu testen Ich bin sehr neugierig, die Gesamtleistung des Hybrid-Setups im Vergleich zu einem quantisierten Kimi-K2.5-Anpassung über die 4 GPUs zu messen. Das Hybrid-Setup benötigt fast 768 GB RAM Um zu beginnen, hier ist eine Basislinie über 8x GPUs mit einer synthetischen Coding-Agent-Stil-Arbeitslast, die auf 2k-45k Eingabetokens abzielt, 80-3k maximale Ausgabetokens und bis zu 10 gleichzeitige Anfragen. SGLangs --mem-fraction-static-Flag ist auf 0,90 gesetzt Basislinien-Durchschnittsdurchsatz: ~74 Ausgabetokens/s bei 10 gleichzeitigen Anfragen