🎉Congratulazioni al team di @Zai_org per il lancio di GLM-4.6V e GLM-4.6V-Flash — con supporto per il day-0 in vLLM Recipes per i team che vogliono eseguirli sui propri GPU. GLM-4.6V si concentra su ragionamenti multimodali di alta qualità con contesto lungo e chiamate a strumenti/funzioni native, mentre GLM-4.6V-Flash è una variante da 9B ottimizzata per una latenza inferiore e distribuzioni a minore impronta; la nostra nuova vLLM Recipe include configurazioni pronte all'uso, guida multi-GPU e impostazioni orientate alla produzione. Se stai costruendo servizi di inferenza e vuoi GLM-4.6V nel tuo stack, inizia qui: