🔥Congratulazioni a @Zai_org per il lancio di GLM-5 — 744B parametri (40B attivi), addestrato su 28,5T token, integrando DeepSeek Sparse Attention per mantenere i costi di distribuzione gestibili pur preservando la capacità di lungo contesto. vLLM ha supporto day-0 per GLM-5-FP8 con: 📖 DeepSeek Sparse Attention per un servizio efficiente a lungo contesto ⚡️ Decodifica speculativa MTP ⚙️ Chiamata di strumenti + modalità di pensiero Ricetta con configurazioni di servizio e benchmark: 🔗