Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Институт фундаментальных моделей MBZUAI выпустил K2-V2, модель рассуждений на 70 миллиардов, которая занимает 1-е место в нашем Индексе Открытости и является первой моделью в наших рейтингах из ОАЭ
📖 Лидер по Открытости: K2-V2 присоединяется к OLMo 3 32B Think на вершине Индекса Открытости Искусственного Интеллекта - нашего недавно выпущенного, стандартизированного, независимо оцененного показателя открытости моделей ИИ по доступности и прозрачности. MBZUAI пошел дальше открытого доступа и лицензирования весов модели - они предоставляют полный доступ к данным до и после обучения. Они также публикуют методологию обучения и код с разрешительной лицензией Apache, позволяющей свободное использование для любых целей. Это делает K2-V2 ценным вкладом в сообщество с открытым исходным кодом и позволяет более эффективную донастройку. Смотрите ссылки ниже!
🧠 Модель открытых весов среднего размера (40-150B): С 70B K2-V2 набирает 46 баллов в нашем Индексе Интеллекта с режимом Высокого рассуждения. Это ставит ее выше Llama Nemotron Super 49B v1.5, но ниже Qwen3 Next 80B A3B. Модель имеет относительную силу в следовании инструкциям с оценкой 60% в IFBench
🇦🇪 Первый участник ОАЭ в наших рейтингах: На фоне в основном американских и китайских моделей K2-V2 выделяется как первое представительство ОАЭ в наших рейтингах и второй участник с Ближнего Востока после израильских лабораторий AI21. K2-V2 - это первая модель MBZUAI, которую мы оценили, но лаборатория ранее выпускала модели с особым акцентом на языковое представление, включая египетский арабский и хинди
📊 Более низкие режимы рассуждений уменьшают использование токенов и галлюцинации: K2-V2 имеет 3 режима рассуждений, при этом режим Высокого рассуждения использует значительные ~130M токенов для завершения нашего Индекса Интеллекта. Однако Средний режим снижает использование токенов примерно в 6 раз с только 6-пунктовым снижением в нашем Индексе Интеллекта. Интересно, что более низкие режимы рассуждений показывают лучшие результаты в нашем индексе знаний и галлюцинаций, AA-Omniscience, из-за уменьшенной тенденции к галлюцинациям.

K2-V2 является связанным лидером в области Открытости и находится на Парато-Границе Открытости против Интеллекта

Модель демонстрирует высокую производительность среди моделей с открытыми весами среднего размера (40-150B параметров)

Режим высокого рассуждения требует значительного использования токенов, но Средний режим снижает использование токенов примерно в 6 раз при только 6-пунктовом снижении нашего Индекса Интеллекта.

Низшие режимы рассуждения показывают лучшие результаты в Индексе Омнинауки Искусственного Интеллекта, так как они меньше галлюцинируют.

Индивидуальные результаты бенчмарков. Все бенчмарки были проведены на равных условиях для всех моделей и независимо.

Дальнейший анализ Искусственного Интеллекта:
Ссылка на HuggingFace 🤗, включая веса, данные, код обучения и технический отчет:
Посты от MBZUAI и IFM:
34,59K
Топ
Рейтинг
Избранное
