O Instituto de Modelos Fundamentais da MBZUAI lançou o K2-V2, um modelo de raciocínio de 70B que está empatado em #1 no nosso Índice de Abertura, e é o primeiro modelo nas nossas tabelas de classificação dos EAU 📖 Líder empatado em Abertura: O K2-V2 junta-se ao OLMo 3 32B Think no topo do Índice de Abertura de Análise Artificial - a nossa medida recém-lançada, padronizada e avaliada de forma independente da abertura de modelos de IA em termos de disponibilidade e transparência. A MBZUAI foi além do acesso aberto e da licenciamento dos pesos do modelo - eles fornecem acesso total aos dados de pré e pós-treinamento. Eles também publicam a metodologia de treinamento e o código com uma licença permissiva Apache que permite o uso gratuito para qualquer finalidade. Isso torna o K2-V2 uma contribuição valiosa para a comunidade de código aberto e permite um ajuste fino mais eficaz. Veja os links abaixo! 🧠 Modelo de pesos abertos de tamanho médio (40-150B) forte: Com 70B, o K2-V2 pontua 46 no nosso Índice de Inteligência com seu modo de raciocínio Alto. Isso o coloca acima do Llama Nemotron Super 49B v1.5, mas abaixo do Qwen3 Next 80B A3B. O modelo tem uma força relativa em seguir instruções com uma pontuação de 60% no IFBench 🇦🇪 Primeiro participante dos EAU nas nossas tabelas de classificação: Em um mar de modelos em grande parte dos EUA e da China, o K2-V2 se destaca como a primeira representação dos EAU nas nossas tabelas de classificação, e o segundo participante do Oriente Médio após os laboratórios AI21 de Israel. O K2-V2 é o primeiro modelo da MBZUAI que avaliamos, mas o laboratório já lançou modelos com um foco particular na representação da linguagem, incluindo árabe egípcio e hindi 📊 Modos de raciocínio mais baixos reduzem o uso de tokens e alucinações: O K2-V2 tem 3 modos de raciocínio, com o modo de raciocínio Alto usando cerca de ~130M tokens para completar o nosso Índice de Inteligência. No entanto, o modo Médio reduz o uso de tokens em ~6x com apenas uma queda de 6 pontos no nosso Índice de Inteligência. Curiosamente, modos de raciocínio mais baixos pontuam melhor no nosso índice de conhecimento e alucinação, AA-Omniscience, devido a uma tendência reduzida de alucinar.
K2-V2 é um líder empatado em Abertura e está na Fronteira de Pareto da Abertura vs Inteligência
O modelo tem um desempenho forte entre modelos de pesos abertos de tamanho médio (40-150B parâmetros)
O modo de raciocínio Alto tem um uso substancial de tokens, mas o Médio reduz o uso de tokens em ~6x com apenas uma queda de 6 pontos no nosso Índice de Inteligência
Modos de raciocínio inferiores têm um desempenho melhor no Índice de Onisciência da Análise Artificial, uma vez que alucinam menos
Resultados de benchmark individuais. Todos os benchmarks foram realizados de forma equivalente entre os modelos e de forma independente
Análise adicional sobre Análise Artificial: Link do HuggingFace 🤗 incluindo pesos, dados, código de treinamento e relatório técnico:
Publicações da MBZUAI e IFM:
34,41K