🎉Enhorabuena al equipo @Zai_org por el lanzamiento de GLM-4.6V y GLM-4.6V-Flash — con la edición 0 del día 0 ofreciendo soporte en vLLM Recipes para equipos que quieren ejecutarlos en sus propias GPUs. GLM-4.6V se centra en razonamiento multimodal de alta calidad con contexto largo y llamadas nativas a herramientas/funciones, mientras que GLM-4.6V-Flash es una variante 9B ajustada para despliegues de menor latencia y menor huella; nuestro nuevo vLLM Recipe incluye configuraciones listas para ejecutar, guía multi-GPU y predeterminados orientados a la producción. Si estás desarrollando servicios de inferencia y quieres GLM-4.6V en tu pila, empieza aquí: