🔥GLM-5'i başlattığı @Zai_org'yi tebrik ederiz — 744B parametre (40B aktif), 28.5T tokenlarda eğitim almış, DeepSeek Sparse Attention'ı entegre ederek dağıtım maliyetini yönetebilir tutuyor ve uzun bağlam kapasitesini koruyor. vLLM, GLM-5-FP8 için 0. gün desteğine sahiptir: 📖 DeepSeek Sparse Attention için verimli uzun bağlam hizmeti için ⚡️ MTP spekülatif çözümleme ⚙️ Araç çağırma + düşünme modu Servis yapılandırmaları ve kıyaslamalarla tarif: 🔗