🎉Félicitations à l'équipe de @Zai_org pour le lancement de GLM-4.6V et GLM-4.6V-Flash — avec un support de service dès le jour 0 dans les recettes vLLM pour les équipes qui souhaitent les exécuter sur leurs propres GPU. GLM-4.6V se concentre sur un raisonnement multimodal de haute qualité avec un long contexte et un appel d'outils/fonctions natif, tandis que GLM-4.6V-Flash est une variante de 9B optimisée pour une latence plus faible et des déploiements à empreinte plus petite ; notre nouvelle recette vLLM propose des configurations prêtes à l'emploi, des conseils multi-GPU et des valeurs par défaut orientées production. Si vous construisez des services d'inférence et souhaitez GLM-4.6V dans votre pile, commencez ici: