TII, un laborator universitar de IA cu sediul în Emiratele Arabe Unite, a lansat Falcon-H1R-7B, un model mic de raționament cu greutăți deschise care se compară bine cu modele de dimensiuni similare 🧠 Scor puternic de inteligență în rândul modelelor <12B: Falcon-H1R-7B scorul 16 la Indicele nostru actualizat de Inteligență în Analiză Artificială v4.0 - înaintea NVIDIA Nemotron Nano 12B V2, dar sub Qwen3 VL 8B. Modelul este bine poziționat pe frontiera Pareto pentru Inteligență vs Parametri Totali pentru modele comparabile. Comparativ cu alte modele <12B, Falcon-H1R-7B se descurcă deosebit de bine la 3 evaluări individuale - Examenul Umanității Ultim (raționament și cunoaștere), τ²-Bench Telecom (utilizarea uneltelor agențice) și IFBench (instrucțiune ulterioară) 🇦🇪 Al doilea intrant în clasamentul EAU: După K2-V2 de la MBZUAI, Falcon-H1R-7B este al doilea model al unei organizații cu sediul în EAU în clasamentul nostru, printre o mare de modele americane și chineze. Fondat de guvernul Abu Dhabi, Technology Innovation Institute (TII) este un centru global de cercetare a cărui misiune este să împingă frontierele cunoașterii și activ în multiple domenii, inclusiv energie, tehnologie cuantică și criptografie. Au peste 100 de modele open weight și variante de Huggingface 📖 Model moderat deschis: Falcon-H1R-7B obține un scor de 44 în Artificial Analysis Openness Index - măsura noastră nou lansată, standardizată și evaluată independent a deschiderii modelelor AI în funcție de disponibilitate și transparență. Acest lucru îl plasează înaintea gpt-oss-20B de la OpenAI, dar în spatele Qwen3 VL8B. Cele mai deschise modele ale noastre, realizate de MBZUAI și Allen Institute for AI, sunt la egalitate în clasamentul 89, fiind conduse de o transparență mai mare și acces la metodologia și datele lor de instruire 📈 Jetoane cu ieșire mare: Modelul a folosit 140M tokenuri pentru a completa Indexul nostru de Inteligență. Acest lucru îl plasează sub GLM-4.7, dar mai sus decât majoritatea celorlalte modele – atât ca dimensiune, cât și printre modelele frontier 📘 Cunoaștere așteptată pentru dimensiunea sa, rată moderată de halucinații: AA-Omniscience este reperul nostru nou lansat care măsoară cunoștințele factuale și halucinațiile modelelor. Falcon-H1R-7B primește un scor moderat de -62. Scorul său de acuratețe a cunoștințelor (14) este în așteptări, având în vedere o corelație puternică între dimensiunea modelului și acuratețe (câte fapte își amintește corect modelul). Modelul halucinează 87% din cazuri când nu își amintește corect răspunsurile – un scor moderat atât la modelele frontier, cât și la cele cu greutăți deschise mici Felicitări pentru lansare @TIIuae!
Falcon-H1R-7B este al doilea model de la o companie din Emiratele Arabe Unite pe clasamentele noastre, printre o mare de modele din SUA și China
Falcon-H1R-7B are un scor moderat în Artificial Analysis Openness Index
Modelul a folosit tokenuri de 140M pentru a completa Indicele nostru de Inteligență - sub GLM-4.7, dar mai mare decât majoritatea celorlalte modele
Falcon-H1R-7B primește un scor moderat la AA-Omniscience, cu o cunoaștere așteptată pentru dimensiunea sa și o rată moderată de halucinații
Comparativ cu modelele comparabile, Falcon-H1R-7B are performanțe bune la Examenul Ultim al Umanității (raționament și cunoaștere), τ²-Bench Telecom (utilizare a uneltelor agentice) și IFBench (instrucțiune ulterioară)
Analiză suplimentară despre analiza artificială: Link pentru îmbrățișarea feței 🤗: Raport tehnic:
23,06K