🎉Selamat kepada tim @Zai_org atas peluncuran GLM-4.6V dan GLM-4.6V-Flash — dengan dukungan penyajian hari 0 di Resep vLLM untuk tim yang ingin menjalankannya di GPU mereka sendiri. GLM-4.6V berfokus pada penalaran multimodal berkualitas tinggi dengan konteks panjang dan panggilan alat/fungsi asli, sedangkan GLM-4.6V-Flash adalah varian 9B yang disetel untuk latensi yang lebih rendah dan penerapan jejak yang lebih kecil; Resep vLLM baru kami mengirimkan konfigurasi siap jalan, panduan multi-GPU, dan default yang berpikiran produksi. Jika Anda membangun layanan inferensi dan menginginkan GLM-4.6V di tumpukan Anda, mulailah di sini: