Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El Instituto de Modelos de Fundamentos de MBZUAI ha lanzado K2-V2, un modelo de razonamiento 70B que está empatado en el #1 en nuestro Índice de Apertura, y es el primer modelo de los EAU en nuestras clasificaciones
📖 Líder empatado en Apertura: K2-V2 se une a OLMo 3 32B Think en la cima del Índice de Apertura en Análisis Artificial, nuestra medida recién lanzada, estandarizada y evaluada de forma independiente de la apertura de modelos de IA en cuanto a disponibilidad y transparencia. MBZUAI fue más allá del acceso abierto y la licencia de los pesos de modelo: proporcionan acceso completo a datos previos y posteriores al entrenamiento. También publican metodologías y código de entrenamiento con una licencia permisiva de Apache, que permite su uso libre para cualquier propósito. Esto convierte a K2-V2 en una valiosa contribución para la comunidad de código abierto y permite un ajuste más efectivo. ¡Consulta los enlaces abajo!
🧠 Modelo de pesos abiertos de tamaño medio (40-150B) fuerte: con 70B, K2-V2 obtiene una puntuación de 46 en nuestro Índice de Inteligencia con su modo de razonamiento alto. Esto lo sitúa por encima de Llama Nemotron Super 49B v1.5 pero por debajo de Qwen3 Next 80B A3B. El modelo tiene una fuerza relativa en instrucción, que sigue con una puntuación del 60% en IFBench
🇦🇪 Primer participante de los EAU en nuestras clasificaciones: En un mar de modelos mayoritariamente estadounidenses y chinos, K2-V2 destaca como la primera representación de los EAU en nuestras clasificaciones, y la segunda participante de Oriente Medio después de los laboratorios AI21 de Israel. K2-V2 es el primer modelo MBZUAI que hemos comparado, pero el laboratorio ya había publicado modelos con un enfoque particular en la representación lingüística, incluyendo árabe egipcio e hindi
📊 Los modos de razonamiento más bajos reducen el uso de tokens y las alucinaciones: K2-V2 tiene 3 modos de razonamiento, siendo el modo de razonamiento Alto que utiliza un considerable ~130M de tokens para completar nuestro Índice de Inteligencia. Sin embargo, el modo Medio reduce el uso de tokens en ~6 veces con solo una caída de 6 puntos en nuestro Índice de Inteligencia. Curiosamente, los modos de razonamiento más bajos obtienen mejores puntuaciones en nuestro índice de conocimiento y alucinaciones, AA-Omnisciencia, debido a una menor tendencia a alucinar

K2-V2 es un líder empatado en Apertura y se sitúa en la Frontera de Pareto entre Apertura e Inteligencia

El modelo tiene un rendimiento sólido entre modelos de tamaño medio (40-150B de parámetros) con peso abierto

El modo de razonamiento alto tiene un uso sustancial de tokens, pero el modo medio reduce el uso de tokens en ~6 veces con solo una caída de 6 puntos en nuestro índice de inteligencia

Los modos de razonamiento más bajos rinden mejor en el Índice de Onmisciencia de Análisis Artificial, ya que alucinan menos

Resultados de referencia individuales. Todos los puntos de referencia se han ejecutado de forma similar en todos los modelos e independientemente

Análisis adicional sobre el Análisis Artificial:
Enlace de HuggingFace 🤗 que incluye pesos, datos, código de entrenamiento e informe técnico:
Publicaciones de MBZUAI e IFM:
34.42K
Populares
Ranking
Favoritas
