🎉Felicitări echipei @Zai_org pentru lansarea GLM-4.6V și GLM-4.6V-Flash — cu suport în ziua 0 pentru vLLM Recipes pentru echipele care doresc să le ruleze pe propriile GPU-uri. GLM-4.6V se concentrează pe raționament multimodal de înaltă calitate, cu context lung și apeluri native de unelte/funcții, în timp ce GLM-4.6V-Flash este o variantă 9B ajustată pentru implementări cu latență mai mică și amprentă mai mică; noul nostru vLLM Recipe livrează configurații gata de rulat, ghidaj multi-GPU și setări implicite orientate spre producție. Dacă construiești servicii de inferență și vrei GLM-4.6V în stack, începe de aici: