Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Instytut Modeli Podstawowych MBZUAI wydał K2-V2, model rozumowania o wielkości 70B, który zajmuje 1. miejsce w naszym Indeksie Otwartości i jest pierwszym modelem na naszych listach rankingowych z ZEA.
📖 Tytan w Otwartości: K2-V2 dołącza do OLMo 3 32B Think na szczycie Indeksu Otwartości Analizy Sztucznej - naszego nowo wydanego, ustandaryzowanego, niezależnie ocenianego wskaźnika otwartości modeli AI w zakresie dostępności i przejrzystości. MBZUAI poszedł dalej niż otwarty dostęp i licencjonowanie wag modelu - zapewniają pełny dostęp do danych przed- i po-treningowych. Publikują również metodologię treningu i kod z liberalną licencją Apache, która pozwala na swobodne wykorzystanie w dowolnym celu. To sprawia, że K2-V2 jest cennym wkładem w społeczność open source i umożliwia skuteczniejsze dostosowywanie. Zobacz linki poniżej!
🧠 Silny model o średniej wielkości (40-150B) z otwartymi wagami: K2-V2, mający 70B, zdobywa 46 punktów w naszym Indeksie Inteligencji w trybie wysokiego rozumowania. To stawia go powyżej Llama Nemotron Super 49B v1.5, ale poniżej Qwen3 Next 80B A3B. Model ma względną siłę w zakresie podążania za instrukcjami, osiągając wynik 60% w IFBench.
🇦🇪 Pierwszy przedstawiciel ZEA na naszych listach rankingowych: W morzu głównie amerykańskich i chińskich modeli, K2-V2 wyróżnia się jako pierwsza reprezentacja ZEA na naszych listach rankingowych oraz drugi przedstawiciel Bliskiego Wschodu po izraelskich laboratoriach AI21. K2-V2 jest pierwszym modelem MBZUAI, który oceniliśmy, ale laboratoria wcześniej wydawały modele z szczególnym naciskiem na reprezentację językową, w tym egipski arabski i hindi.
📊 Niższe tryby rozumowania zmniejszają zużycie tokenów i halucynacje: K2-V2 ma 3 tryby rozumowania, przy czym tryb wysokiego rozumowania wykorzystuje znaczną ilość ~130M tokenów do ukończenia naszego Indeksu Inteligencji. Jednak tryb średni zmniejsza zużycie tokenów o ~6x przy jedynie 6-punktowym spadku w naszym Indeksie Inteligencji. Interesujące jest to, że niższe tryby rozumowania osiągają lepsze wyniki w naszym indeksie wiedzy i halucynacji, AA-Omniscience, z powodu zmniejszonej tendencji do halucynacji.

K2-V2 jest wiodącym liderem w zakresie Otwartości i znajduje się na Pareto Frontier w odniesieniu do Otwartości w porównaniu do Inteligencji

Model ma silną wydajność wśród modeli o średniej wielkości (40-150B parametrów) z otwartymi wagami

Tryb wysokiego rozumowania ma znaczne zużycie tokenów, ale tryb średni redukuje zużycie tokenów o ~6x przy jedynie 6 punktach spadku w naszym Indeksie Inteligencji

Niższe tryby rozumowania osiągają lepsze wyniki w Indeksie Wszechwiedzy Analizy Sztucznej, ponieważ mniej halucynują.

Indywidualne wyniki benchmarków. Wszystkie benchmarki zostały przeprowadzone w sposób porównywalny w różnych modelach i niezależnie.

Dalsza analiza na temat Analizy Sztucznej:
Link do HuggingFace 🤗 zawierający wagi, dane, kod treningowy i raport techniczny:
Posty od MBZUAI i IFM:
34,41K
Najlepsze
Ranking
Ulubione
