🎉Chúc mừng đội ngũ @Zai_org về việc ra mắt GLM-4.6V và GLM-4.6V-Flash — với hỗ trợ phục vụ ngày-0 trong vLLM Recipes cho các đội muốn chạy chúng trên GPU của riêng họ. GLM-4.6V tập trung vào lý luận đa phương thức chất lượng cao với ngữ cảnh dài và gọi công cụ/chức năng bản địa, trong khi GLM-4.6V-Flash là một biến thể 9B được điều chỉnh cho độ trễ thấp hơn và triển khai có kích thước nhỏ hơn; công thức vLLM mới của chúng tôi cung cấp cấu hình sẵn sàng chạy, hướng dẫn đa-GPU và các mặc định hướng đến sản xuất. Nếu bạn đang xây dựng dịch vụ suy diễn và muốn GLM-4.6V trong ngăn xếp của mình, hãy bắt đầu từ đây: