Інститут фундаментальних моделей MBZUAI випустив K2-V2 — модель логікування 70B, яка ділить #1 у нашому Індексі відкритості та є першою моделлю в наших лідербордах з ОАЕ 📖 Лідер у відкритості: K2-V2 приєднується до OLMo 3 32B Think на вершині Індексу відкритості штучного аналізу — нашого нововипущеного, стандартизованого, незалежно оціненого показника відкритості моделі ШІ за доступністю та прозорістю. MBZUAI пішов за межі відкритого доступу та ліцензування ваг моделей — вони забезпечують повний доступ до даних до та після навчання. Вони також публікують методологію навчання та код з дозволеною ліцензією Apache, що дозволяє вільне використання для будь-яких цілей. Це робить K2-V2 цінним внеском у спільноту відкритого коду та дозволяє ефективніше налаштовувати. Дивіться посилання нижче! 🧠 Сильна модель з відкритими вагами середнього розміру (40-150B): при 70B K2-V2 отримує 46 балів у нашому індексі інтелекту завдяки режиму високого мислення. Це ставить його вище за Llama Nemotron Super 49B v1.5, але нижче Qwen3 Next 80B A3B. Модель має відносну силу у навчанні з результатом 60% у IFBench 🇦🇪 Перший представник ОАЕ у наших таблицях лідерів: серед моря переважно американських і китайських моделей K2-V2 вирізняється як перший представник ОАЕ в наших таблицях лідерів і другий представник з Близького Сходу після ізраїльських лабораторій AI21. K2-V2 — це перша модель MBZUAI, яку ми бенчмаркували, але лабораторія раніше випускала моделі з особливим акцентом на мовне представлення, зокрема єгипетську, арабську та гінді 📊 Нижчі режими мислення зменшують використання токена та галюцинації: K2-V2 має 3 режими мислення, при цьому режим Високого мислення використовує значні ~130 млн токенів для завершення нашого Індексу Інтелекту. Однак режим Medium зменшує використання токенів у ~6 разів, при цьому наш індекс інтелекту знижується лише на 6 пунктів. Цікаво, що нижчі способи мислення краще оцінюють наші знання та індекс галюцинацій, AA-Omniscience, через зменшену схильність до галюцинацій
K2-V2 є лідером у відкритості і знаходиться на межі Парето між відкритістю та інтелектом
Модель має високі характеристики серед моделей з відкритими вагами середнього розміру (параметри 40-150B)
Режим High Reasoning має значне використання токенів, але Medium зменшує їх у ~6 разів, при цьому наш індекс інтелекту знижується лише на 6 пунктів
Нижчі режими мислення краще працюють у Індексі всезнання штучного аналізу, оскільки вони менше галюцинують
Індивідуальні результати бенчмарків. Усі тести були проведені однаково для всіх моделей і незалежно
Подальший аналіз штучного аналізу: Посилання HuggingFace 🤗 з вагами, даними, навчальним кодом та технічним звітом:
Пости MBZUAI та IFM:
34,42K