🎉Parabéns à equipa do @Zai_org pelo lançamento do GLM-4.6V e GLM-4.6V-Flash — com suporte de serviço no dia 0 nas Receitas vLLM para equipas que desejam executá-los nas suas próprias GPUs. O GLM-4.6V foca em raciocínio multimodal de alta qualidade com longo contexto e chamadas de ferramentas/funções nativas, enquanto o GLM-4.6V-Flash é uma variante de 9B ajustada para menor latência e implementações de menor espaço; a nossa nova Receita vLLM fornece configurações prontas para execução, orientação multi-GPU e padrões voltados para produção. Se você está a construir serviços de inferência e deseja o GLM-4.6V na sua pilha, comece aqui: