🎉Herzlichen Glückwunsch an das @Zai_org Team zur Einführung von GLM-4.6V und GLM-4.6V-Flash — mit Day-0-Servingsupport in vLLM-Rezepten für Teams, die diese auf ihren eigenen GPUs ausführen möchten. GLM-4.6V konzentriert sich auf qualitativ hochwertiges multimodales Denken mit langem Kontext und nativen Tool-/Funktionsaufrufen, während GLM-4.6V-Flash eine 9B-Variante ist, die für geringere Latenz und kleinere Bereitstellungen optimiert wurde; unser neues vLLM-Rezept liefert sofort einsatzbereite Konfigurationen, Multi-GPU-Anleitungen und produktionsorientierte Standardeinstellungen. Wenn Sie Inferenzdienste aufbauen und GLM-4.6V in Ihrem Stack haben möchten, starten Sie hier: