🔥Herzlichen Glückwunsch an @Zai_org zur Einführung von GLM-5 — 744B Parameter (40B aktiv), trainiert auf 28,5T Tokens, mit Integration von DeepSeek Sparse Attention, um die Bereitstellungskosten überschaubar zu halten und gleichzeitig die Kapazität für lange Kontexte zu bewahren. vLLM hat sofortige Unterstützung für GLM-5-FP8 mit: 📖 DeepSeek Sparse Attention für effizientes Servieren von langen Kontexten ⚡️ MTP spekulative Dekodierung ⚙️ Toolaufruf + Denkmodus Rezept mit Servierungskonfigurationen und Benchmarks: 🔗