L'Istituto dei Modelli Fondamentali di MBZUAI ha rilasciato K2-V2, un modello di ragionamento da 70 miliardi che è in testa al nostro Indice di Apertura, ed è il primo modello nelle nostre classifiche proveniente dagli Emirati Arabi Uniti. 📖 Leader condiviso in Apertura: K2-V2 si unisce a OLMo 3 32B Think in cima all'Indice di Apertura dell'Analisi Artificiale - la nostra misura recentemente rilasciata, standardizzata e valutata in modo indipendente dell'apertura dei modelli di AI in termini di disponibilità e trasparenza. MBZUAI è andata oltre l'accesso aperto e la licenza dei pesi del modello - forniscono accesso completo ai dati di pre- e post-addestramento. Pubblicano anche la metodologia di addestramento e il codice con una licenza Apache permissiva che consente un uso gratuito per qualsiasi scopo. Questo rende K2-V2 un contributo prezioso alla comunità open source e consente un fine-tuning più efficace. Vedi i link qui sotto! 🧠 Modello di pesi aperti di media grandezza (40-150B): Con 70 miliardi, K2-V2 ottiene 46 nel nostro Indice di Intelligenza con la sua modalità di ragionamento Alta. Questo lo colloca sopra Llama Nemotron Super 49B v1.5 ma sotto Qwen3 Next 80B A3B. Il modello ha una forza relativa nel seguire le istruzioni con un punteggio del 60% in IFBench. 🇦🇪 Primo partecipante degli Emirati Arabi Uniti nelle nostre classifiche: In un mare di modelli per lo più statunitensi e cinesi, K2-V2 si distingue come la prima rappresentazione degli Emirati Arabi Uniti nelle nostre classifiche, e il secondo partecipante del Medio Oriente dopo i laboratori AI21 di Israele. K2-V2 è il primo modello di MBZUAI che abbiamo valutato, ma il laboratorio ha precedentemente rilasciato modelli con un particolare focus sulla rappresentazione linguistica, inclusi l'arabo egiziano e l'hindi. 📊 Modalità di ragionamento inferiori riducono l'uso di token e le allucinazioni: K2-V2 ha 3 modalità di ragionamento, con la modalità di ragionamento Alta che utilizza circa 130 milioni di token per completare il nostro Indice di Intelligenza. Tuttavia, la modalità Media riduce l'uso di token di circa 6 volte con solo un calo di 6 punti nel nostro Indice di Intelligenza. Interessante notare che le modalità di ragionamento inferiori ottengono punteggi migliori nel nostro indice di conoscenza e allucinazione, AA-Omniscience, a causa di una minore tendenza a allucinare.
K2-V2 è un leader legato all'Openness e si trova sulla Pareto Frontier dell'Openness rispetto all'Intelligence
Il modello ha prestazioni elevate tra i modelli a pesi aperti di dimensioni medie (40-150 miliardi di parametri)
La modalità di ragionamento Alta ha un utilizzo sostanziale di token, ma la Media riduce l'utilizzo di token di circa 6 volte con solo un calo di 6 punti nel nostro Indice di Intelligenza.
I modelli di ragionamento inferiori performano meglio nell'Indice di Onniscienza dell'Analisi Artificiale, poiché hallucinano di meno
Risultati di benchmark individuali. Tutti i benchmark sono stati eseguiti in modo comparabile tra i modelli e in modo indipendente
Ulteriore analisi su Artificial Analysis: Link di HuggingFace 🤗 inclusi pesi, dati, codice di addestramento e rapporto tecnico:
Post di MBZUAI e IFM:
34,26K