🎉¡Felicidades al equipo de @Zai_org por el lanzamiento de GLM-4.6V y GLM-4.6V-Flash! — con soporte de servicio desde el día 0 en vLLM Recipes para equipos que desean ejecutarlos en sus propias GPU. GLM-4.6V se centra en el razonamiento multimodal de alta calidad con un contexto largo y llamadas a herramientas/funciones nativas, mientras que GLM-4.6V-Flash es una variante de 9B ajustada para una menor latencia y despliegues de menor tamaño; nuestra nueva vLLM Recipe incluye configuraciones listas para ejecutar, orientación multi-GPU y valores predeterminados orientados a la producción. Si estás construyendo servicios de inferencia y deseas GLM-4.6V en tu stack, comienza aquí: