Viện Mô hình Cơ sở của MBZUAI đã phát hành K2-V2, một mô hình suy luận 70B đứng đầu bảng xếp hạng Openness Index của chúng tôi, và là mô hình đầu tiên trên bảng xếp hạng của chúng tôi từ UAE 📖 Đứng đầu về Openness: K2-V2 cùng với OLMo 3 32B Think đứng ở vị trí cao nhất trong Chỉ số Openness Phân tích Nhân tạo - một thước đo mới được phát hành, tiêu chuẩn hóa, đánh giá độc lập về độ mở của mô hình AI dựa trên tính khả dụng và tính minh bạch. MBZUAI đã vượt qua việc cung cấp quyền truy cập mở và cấp phép trọng số mô hình - họ cung cấp quyền truy cập đầy đủ vào dữ liệu trước và sau khi đào tạo. Họ cũng công bố phương pháp đào tạo và mã với giấy phép Apache cho phép sử dụng miễn phí cho bất kỳ mục đích nào. Điều này khiến K2-V2 trở thành một đóng góp quý giá cho cộng đồng mã nguồn mở và cho phép tinh chỉnh hiệu quả hơn. Xem các liên kết bên dưới! 🧠 Mô hình trọng số mở cỡ trung bình mạnh (40-150B): Với 70B, K2-V2 đạt 46 trong Chỉ số Trí tuệ của chúng tôi với chế độ suy luận Cao. Điều này đặt nó trên Llama Nemotron Super 49B v1.5 nhưng dưới Qwen3 Next 80B A3B. Mô hình có sức mạnh tương đối trong việc theo dõi hướng dẫn với điểm số 60% trong IFBench 🇦🇪 Mô hình đầu tiên từ UAE trên bảng xếp hạng của chúng tôi: Trong một biển các mô hình chủ yếu từ Mỹ và Trung Quốc, K2-V2 nổi bật như là đại diện đầu tiên của UAE trong bảng xếp hạng của chúng tôi, và là mô hình thứ hai từ Trung Đông sau AI21 labs của Israel. K2-V2 là mô hình đầu tiên của MBZUAI mà chúng tôi đã đánh giá, nhưng phòng thí nghiệm đã phát hành các mô hình trước đó với sự tập trung đặc biệt vào đại diện ngôn ngữ bao gồm tiếng Ả Rập Ai Cập và tiếng Hindi 📊 Các chế độ suy luận thấp hơn giảm sử dụng token & ảo tưởng: K2-V2 có 3 chế độ suy luận, với chế độ suy luận Cao sử dụng khoảng ~130M token để hoàn thành Chỉ số Trí tuệ của chúng tôi. Tuy nhiên, chế độ Trung bình giảm sử dụng token khoảng ~6 lần với chỉ một sự giảm 6 điểm trong Chỉ số Trí tuệ của chúng tôi. Thú vị là, các chế độ suy luận thấp hơn có điểm số tốt hơn trong chỉ số kiến thức và ảo tưởng của chúng tôi, AA-Omniscience, do xu hướng ảo tưởng giảm.
K2-V2 là một nhà lãnh đạo hàng đầu về Sự Minh Bạch, và nằm trên Đường Biên Pareto của Sự Minh Bạch so với Trí Tuệ
Mô hình có hiệu suất mạnh mẽ trong số các mô hình trọng số mở cỡ trung bình (40-150B tham số)
Chế độ lý luận Cao có mức sử dụng token đáng kể, nhưng Chế độ Trung bình giảm mức sử dụng token khoảng 6 lần với chỉ 6 điểm giảm trong Chỉ số Trí tuệ của chúng tôi.
Các chế độ lý luận thấp hơn hoạt động tốt hơn trong Chỉ số Toàn tri Phân tích Nhân tạo, vì chúng ít ảo tưởng hơn.
Kết quả chuẩn cá nhân. Tất cả các bài kiểm tra đã được thực hiện giống hệt nhau trên các mô hình và độc lập.
Phân tích thêm về Phân tích Nhân tạo: Liên kết HuggingFace 🤗 bao gồm trọng số, dữ liệu, mã đào tạo và báo cáo kỹ thuật:
Bài viết của MBZUAI và IFM:
34,59K