TII, un laboratorio de IA de una universidad con sede en los EAU, ha lanzado Falcon-H1R-7B, un pequeño modelo de razonamiento de pesos abiertos que se compara bien con modelos de tamaño similar 🧠 Puntuación de inteligencia fuerte entre modelos <12B: Falcon-H1R-7B obtiene 16 en nuestro actualizado Índice de Inteligencia de Análisis Artificial v4.0 - por delante del NVIDIA Nemotron Nano 12B V2, pero por detrás del Qwen3 VL 8B. El modelo está bien posicionado en la frontera de Pareto para Inteligencia vs Parámetros Totales para modelos comparables. En relación con otros modelos <12B, Falcon-H1R-7B se desempeña particularmente bien en 3 evaluaciones individuales - el Último Examen de la Humanidad (razonamiento y conocimiento), 𝜏²-Bench Telecom (uso de herramientas agentivas) y IFBench (seguimiento de instrucciones) 🇦🇪 Segundo participante en la tabla de clasificación de los EAU: Tras el K2-V2 de MBZUAI, Falcon-H1R-7B es el segundo modelo de una organización con sede en los EAU en nuestras tablas de clasificación, entre un mar de modelos estadounidenses y chinos. Fundado por el gobierno de Abu Dabi, el Instituto de Innovación Tecnológica (TII) es un centro de investigación global cuya misión es ampliar las fronteras del conocimiento, y está activo en múltiples dominios, incluyendo energía, tecnología cuántica y criptografía. Tienen más de 100 modelos y variantes de pesos abiertos en Huggingface 📖 Modelo moderadamente abierto: Falcon-H1R-7B obtiene 44 en el Índice de Apertura de Análisis Artificial - nuestra medida recién lanzada, estandarizada y evaluada de manera independiente sobre la apertura de modelos de IA en términos de disponibilidad y transparencia. Esto lo coloca por delante del gpt-oss-20B de OpenAI, pero por detrás del Qwen3 VL8B. Nuestros modelos más abiertos, de MBZUAI y el Instituto Allen para la IA, empatan en la tabla de clasificación con 89, impulsados por una mayor transparencia y acceso a su metodología de entrenamiento y datos 📈 Alta cantidad de tokens de salida: El modelo utilizó 140M de tokens para completar nuestro Índice de Inteligencia. Esto lo clasifica por debajo del GLM-4.7, pero por encima de la mayoría de los otros modelos - tanto en su categoría de tamaño como entre los modelos de frontera 📘 Conocimiento esperado para su tamaño, tasa de alucinación moderada: AA-Omniscience es nuestro nuevo estándar que mide el conocimiento fáctico y la alucinación de los modelos. Falcon-H1R-7B recibe una puntuación moderada de -62. Su puntuación de precisión de conocimiento (14) está dentro de las expectativas, dado que vemos una fuerte correlación entre el tamaño del modelo y la precisión (cuántos hechos recuerda correctamente el modelo). El modelo alucina el 87% del tiempo cuando no recuerda correctamente las respuestas - una puntuación moderada entre los modelos de frontera y los modelos de pesos abiertos pequeños por igual ¡Felicidades por el lanzamiento @TIIuae !
Falcon-H1R-7B es el segundo modelo de una empresa con sede en los EAU en nuestras tablas de clasificación, entre un mar de modelos estadounidenses y chinos.
Falcon-H1R-7B tiene una puntuación moderada en el Índice de Apertura de Análisis Artificial.
El modelo utilizó 140 millones de tokens para completar nuestro Índice de Inteligencia - por debajo de GLM-4.7, pero por encima de la mayoría de los otros modelos
Falcon-H1R-7B recibe una puntuación moderada en AA-Omniscience, con un conocimiento esperado para su tamaño y una tasa de alucinación moderada
En comparación con modelos similares, Falcon-H1R-7B se desempeña bien en el Último Examen de la Humanidad (razonamiento y conocimiento), 𝜏²-Bench Telecom (uso de herramientas agentivas) y IFBench (seguimiento de instrucciones)
Análisis adicional sobre Análisis Artificial: Enlace de Hugging Face 🤗: Informe técnico:
31,44K