El Instituto de Modelos Fundamentales de MBZUAI ha lanzado K2-V2, un modelo de razonamiento de 70B que está empatado en el #1 en nuestro Índice de Apertura, y es el primer modelo en nuestras tablas de clasificación de los EAU 📖 Líder empatado en Apertura: K2-V2 se une a OLMo 3 32B Think en la cima del Índice de Apertura de Análisis Artificial - nuestra medida recién lanzada, estandarizada y evaluada de manera independiente sobre la apertura de modelos de IA en cuanto a disponibilidad y transparencia. MBZUAI fue más allá del acceso abierto y la concesión de licencias de los pesos del modelo: proporcionan acceso completo a los datos de pre y post-entrenamiento. También publican la metodología de entrenamiento y el código con una licencia permisiva de Apache que permite el uso gratuito para cualquier propósito. Esto convierte a K2-V2 en una valiosa contribución a la comunidad de código abierto y permite un ajuste más efectivo. ¡Vea los enlaces a continuación! 🧠 Modelo de pesos abiertos de tamaño mediano (40-150B) fuerte: Con 70B, K2-V2 obtiene 46 en nuestro Índice de Inteligencia con su modo de razonamiento Alto. Esto lo coloca por encima de Llama Nemotron Super 49B v1.5 pero por debajo de Qwen3 Next 80B A3B. El modelo tiene una fuerza relativa en el seguimiento de instrucciones con una puntuación del 60% en IFBench 🇦🇪 Primer participante de los EAU en nuestras tablas de clasificación: En un mar de modelos en su mayoría estadounidenses y chinos, K2-V2 se destaca como la primera representación de los EAU en nuestras tablas de clasificación, y el segundo participante de Oriente Medio después de los laboratorios AI21 de Israel. K2-V2 es el primer modelo de MBZUAI que hemos evaluado, pero el laboratorio ha lanzado previamente modelos con un enfoque particular en la representación del lenguaje, incluyendo árabe egipcio e hindi 📊 Modos de razonamiento más bajos reducen el uso de tokens y la alucinación: K2-V2 tiene 3 modos de razonamiento, con el modo de razonamiento Alto utilizando aproximadamente ~130M tokens para completar nuestro Índice de Inteligencia. Sin embargo, el modo Medio reduce el uso de tokens en ~6x con solo una caída de 6 puntos en nuestro Índice de Inteligencia. Curiosamente, los modos de razonamiento más bajos obtienen mejores puntuaciones en nuestro índice de conocimiento y alucinación, AA-Omnisciencia, debido a una menor tendencia a alucinar.
K2-V2 es un líder empatado en Apertura y se sitúa en la Frontera de Pareto de Apertura vs Inteligencia
El modelo tiene un rendimiento sólido entre los modelos de pesos abiertos de tamaño mediano (40-150B parámetros)
El modo de razonamiento alto tiene un uso sustancial de tokens, pero el medio reduce el uso de tokens en aproximadamente 6 veces con solo una caída de 6 puntos en nuestro Índice de Inteligencia.
Los modos de razonamiento inferiores tienen un mejor rendimiento en el Índice de Omnisciencia del Análisis Artificial, ya que alucinan menos
Resultados de referencia individuales. Todos los benchmarks se han realizado de manera comparable entre los modelos e independientemente.
Análisis adicional sobre Análisis Artificial: Enlace de HuggingFace 🤗 que incluye pesos, datos, código de entrenamiento e informe técnico:
Publicaciones de MBZUAI e IFM:
34,42K