DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

MBZUAI:s Institute of Foundation Models har släppt K2-V2, en 70B-resonemangsmodell som är delad #1 i vårt Openness Index, och är den första modellen från Förenade Arabemiraten på våra topplistor 📖 Delad ledare i öppenhet: K2-V2 ansluter sig till OLMo 3 32B Think i toppen av Artificial Analysis Openness Index – vårt nyligen släppta, standardiserade, oberoende bedömda mått på AI-modellens öppenhet över tillgänglighet och transparens. MBZUAI gick bortom öppen tillgång och licensiering av modellvikterna – de ger full tillgång till data före och efter träning. De publicerar också träningsmetodik och kod med en tillåtande Apache-licens som tillåter fri användning för alla ändamål. Detta gör K2-V2 till ett värdefullt bidrag till open source-gemenskapen och möjliggör effektivare finjustering. Se länkar nedan! 🧠 Stark modell för medelstora (40-150B) öppna vikter: Vid 70B får K2-V2 46 poäng på vårt Intelligence Index med sitt höga resonemangsläge. Detta placerar den över Llama Nemotron Super 49B v1.5 men under Qwen3 Next 80B A3B. Modellen har en relativ styrka i undervisning som följs med ett resultat på 60 % i IFBench 🇦🇪 Första UAE-deltagaren på våra topplistor: I ett hav av till största delen amerikanska och kinesiska modeller utmärker sig K2-V2 som den första representationen av Förenade Arabemiraten på våra topplistor, och den andra deltagaren från Mellanöstern efter Israels AI21-labb. K2-V2 är den första MBZUAI-modellen vi har benchmarkat, men laboratoriet har tidigare släppt modeller med särskilt fokus på språkrepresentation, inklusive egyptisk, arabiska och hindi 📊 Lägre resonemangsformer minskar tokenanvändning och hallucinationer: K2-V2 har 3 resonemangsmod, där högresonemangsläget använder hela ~130 miljoner tokens för att komplettera vårt intelligensindex. Dock minskar Medium-läget tokenanvändningen med ~6x med endast en 6-punkts minskning i vårt Intelligence Index. Intressant nog får lägre resonemangssätt bättre poäng i vårt kunskaps- och hallucinationsindex, AA-Allvetande, tack vare en minskad hallucinationstendens

K2-V2 är en lika ledare i öppenhet och befinner sig på Pareto-gränsen mellan öppenhet och intelligens

Modellen har stark prestanda bland medelstora (40–150 miljarder parametrar) öppna viktmodeller

High reasoning-läget har betydande tokenanvändning, men Medium minskar tokenanvändningen med ~6 gånger med endast en 6-punkts minskning i vårt Intelligence Index

Lägre resonemangsformer presterar bättre i Artificial Analysis Omniscience Index, eftersom de hallucinerar mindre

Individuella benchmark-resultat. Alla benchmarks har körts lika-för-lika-tester i alla modeller och oberoende av varandra

Vidare analys av artificiell analys: HuggingFace-länk 🤗 inklusive vikter, data, träningskod och teknisk rapport:

Inlägg av MBZUAI och IFM:

34,42K

Topp

Rankning

Favoriter