Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'Institut des modèles fondamentaux de MBZUAI a publié K2-V2, un modèle de raisonnement de 70 milliards de paramètres qui est à égalité pour la première place dans notre Indice d'Ouverture, et est le premier modèle de nos classements en provenance des Émirats Arabes Unis.
📖 Leader à égalité en Ouverture : K2-V2 rejoint OLMo 3 32B Think au sommet de l'Indice d'Ouverture de l'Analyse Artificielle - notre mesure nouvellement publiée, standardisée et évaluée de manière indépendante de l'ouverture des modèles d'IA en termes de disponibilité et de transparence. MBZUAI a dépassé l'accès ouvert et la licence des poids du modèle - ils fournissent un accès complet aux données d'entraînement et de post-entraînement. Ils publient également la méthodologie d'entraînement et le code avec une licence Apache permissive permettant une utilisation gratuite à des fins quelconques. Cela fait de K2-V2 une contribution précieuse à la communauté open source et permet un ajustement plus efficace. Voir les liens ci-dessous !
🧠 Modèle à poids ouverts de taille moyenne (40-150B) : Avec ses 70 milliards de paramètres, K2-V2 obtient un score de 46 dans notre Indice d'Intelligence avec son mode de raisonnement Élevé. Cela le place au-dessus de Llama Nemotron Super 49B v1.5 mais en dessous de Qwen3 Next 80B A3B. Le modèle a une force relative dans le suivi des instructions avec un score de 60 % dans IFBench.
🇦🇪 Premier entrant des Émirats Arabes Unis dans nos classements : Dans un océan de modèles largement américains et chinois, K2-V2 se distingue comme la première représentation des Émirats Arabes Unis dans nos classements, et le deuxième entrant du Moyen-Orient après les laboratoires AI21 d'Israël. K2-V2 est le premier modèle de MBZUAI que nous avons évalué, mais le laboratoire a précédemment publié des modèles avec un accent particulier sur la représentation linguistique, y compris l'arabe égyptien et l'hindi.
📊 Des modes de raisonnement inférieurs réduisent l'utilisation de tokens et l'hallucination : K2-V2 a 3 modes de raisonnement, le mode de raisonnement Élevé utilisant environ 130 millions de tokens pour compléter notre Indice d'Intelligence. Cependant, le mode Moyen réduit l'utilisation de tokens d'environ 6 fois avec seulement une baisse de 6 points dans notre Indice d'Intelligence. Fait intéressant, les modes de raisonnement inférieurs obtiennent de meilleurs scores dans notre indice de connaissance et d'hallucination, AA-Omniscience, en raison d'une tendance réduite à halluciner.

K2-V2 est un leader à égalité en matière d'Ouverture et se situe sur la Frontière de Pareto de l'Ouverture par rapport à l'Intelligence

Le modèle présente de solides performances parmi les modèles à poids ouverts de taille moyenne (40-150B paramètres)

Le mode de raisonnement élevé a une utilisation substantielle des tokens, mais le mode moyen réduit l'utilisation des tokens d'environ 6x avec seulement une baisse de 6 points de notre indice d'intelligence.

Les modes de raisonnement inférieurs obtiennent de meilleurs résultats dans l'Indice d'Omniscience de l'Analyse Artificielle, car ils hallucinent moins.

Résultats de référence individuels. Tous les benchmarks ont été réalisés de manière comparable entre les modèles et de manière indépendante

Analyse approfondie sur l'Analyse Artificielle :
Lien HuggingFace 🤗 incluant les poids, les données, le code d'entraînement et le rapport technique :
Publications de MBZUAI et IFM :
34,59K
Meilleurs
Classement
Favoris
