Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Institutul de Modele de Fundație al MBZUAI a lansat K2-V2, un model de raționament 70B care este la egalitate pe locul #1 în Indicele nostru de Deschidere și este primul model din EAU din clasamentele noastre
📖 Lider egal la deschidere: K2-V2 se alătură OLMo 3 32B Gândește-te în fruntea Indicelui de Deschidere în Analiza Artificială – măsurarea noastră nou lansată, standardizată și evaluată independent a deschiderii modelelor AI în funcție de disponibilitate și transparență. MBZUAI a mers dincolo de accesul deschis și licențierea greutăților modelului – oferă acces complet la date pre- și post-antrenament. De asemenea, publică metodologie de instruire și cod cu o licență Apache permisivă, permițând utilizarea liberă pentru orice scop. Acest lucru face ca K2-V2 să fie o contribuție valoroasă pentru comunitatea open source și permite o reglare fină mai eficientă. Vezi linkurile de mai jos!
🧠 Model puternic de greutate deschisă de dimensiuni medii (40-150B): La 70B, K2-V2 obține un scor de 46 la Indicele nostru de Inteligență datorită modului său de raționament ridicat. Aceasta îl plasează deasupra Llama Nemotron Super 49B v1.5, dar sub Qwen3 Next 80B A3B. Modelul are o forță relativă în instruire, urmată de un scor de 60% în IFBench
🇦🇪 Primul intrant în EAU în clasamentele noastre: Într-o mare de modele în mare parte americane și chinezești, K2-V2 se remarcă ca prima reprezentare a EAU în clasamentele noastre și al doilea venit din Orientul Mijlociu după laboratoarele AI21 ale Israelului. K2-V2 este primul model MBZUAI pe care l-am testat, dar laboratorul a lansat anterior modele cu un accent deosebit pe reprezentarea limbii, inclusiv araba egipteană și hindi
📊 Modurile de raționament mai scăzute reduc utilizarea token-urilor și halucinațiile: K2-V2 are 3 moduri de raționament, modul de raționament High folosind un substanțial ~130M tokens pentru a completa Indexul nostru de Inteligență. Totuși, modul Mediu reduce utilizarea token-urilor cu ~6x, cu o scădere de doar 6pt în Indexul nostru de Inteligență. Interesant este că modurile de raționament mai scăzute obțin scoruri mai bune în indicele nostru de cunoaștere și halucinații, AA-Omnisciență, datorită tendinței reduse de a avea halucinații

K2-V2 este un lider egal la Deschidere și se află pe Frontiera Pareto a Deschiderii versus Inteligența

Modelul are performanțe puternice în rândul modelelor de dimensiuni medii (40-150B parametri) cu greutăți deschise

Modul High Reasoning are o utilizare substanțială a token-urilor, dar Medium reduce utilizarea token-urilor cu ~6x, cu o scădere de doar 6pt în Indexul nostru de Inteligență

Modurile de raționament mai scăzute se comportă mai bine în Artificial Analysis Omniscience Index, deoarece halucinează mai puțin

Rezultate individuale de referință. Toate benchmark-urile au fost rulate în mod similar între modele și independent

Analiză suplimentară despre analiza artificială:
Link HuggingFace 🤗 care include greutăți, date, cod de antrenament și raport tehnic:
Postări ale MBZUAI și IFM:
34,4K
Limită superioară
Clasament
Favorite
