DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Alibaba heeft 4 nieuwe Qwen3.5-modellen uitgebracht van 0.8B tot 9B. De 9B (Redenering, 32 op de Intelligentie-index) is het meest intelligente model onder de 10B parameters, en de 4B (Redenering, 27) het meest intelligente onder de 5B, maar beide gebruiken 200M+ outputtokens om de Intelligentie-index te draaien @Alibaba_Qwen heeft de Qwen3.5-familie uitgebreid met vier kleinere dichte modellen: de 9B (Redenering, 32 op de Intelligentie-index), 4B (Redenering, 27), 2B (Redenering, 16) en 0.8B (Redenering, 9). Deze aanvullen de grotere 397B, 27B, 122B A10B en 35B A3B-modellen die eerder deze maand zijn uitgebracht. Alle modellen zijn gelicentieerd onder Apache 2.0, ondersteunen 262K context, bevatten native visuele ondersteuning en gebruiken dezelfde uniforme denk-/niet-denk hybride aanpak als de rest van de Qwen3.5-familie Belangrijke benchmarkresultaten voor de redeneringsvarianten: ➤ De 9B en 4B zijn de meest intelligente modellen in hun respectieve grootteklassen, voor alle andere modellen onder de 10B parameters. Qwen3.5 9B (32) scoort ongeveer het dubbele van de dichtstbijzijnde modellen onder de 10B: Falcon-H1R-7B (16) en NVIDIA Nemotron Nano 9B V2 (Redenering, 15). Qwen3.5 4B (27) scoort beter dan al deze, ondanks dat het ongeveer de helft van de parameters heeft. Alle vier de kleine Qwen3.5-modellen bevinden zich op de Pareto-grens van de Intelligentie versus Totale Parameters-grafiek ➤ De Qwen3.5-generatie vertegenwoordigt een materiële intelligentieverbetering ten opzichte van Qwen3 over alle sub-10B modelgroottes, met grotere winsten bij hogere totale parameteraantallen. Bij het vergelijken van redeneringsvarianten: Qwen3.5 9B (32) is 15 punten beter dan Qwen3 VL 8B (17), de 4B (27) wint 9 punten ten opzichte van Qwen3 4B 2507 (18), de 2B (16) is 3 punten beter dan Qwen3 1.7B (geschat 13), en de 0.8B (9) wint 2.5 punten ten opzichte van Qwen3 0.6B (6.5). ➤ Alle vier de modellen gebruiken 230-390M outputtokens om de Intelligentie-index te draaien, aanzienlijk meer dan zowel de grotere Qwen3.5-zussen als de Qwen3-voorgangers. Qwen3.5 2B gebruikte ~390M outputtokens, 4B gebruikte ~240M, 0.8B gebruikte ~230M, en 9B gebruikte ~260M. Ter context, de veel grotere Qwen3.5 27B gebruikte 98M en de 397B vlaggenschip gebruikte 86M. Deze tokenaantallen overschrijden ook de meeste grensmodellen: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) en GLM-5 Redenering (109M) ➤ AA-Omniscience is een relatieve zwakte, met hallucinatiepercentages van 80-82% voor de 4B en 9B. Qwen3.5 4B scoort -57 op AA-Omniscience met een hallucinatiepercentage van 80% en een nauwkeurigheid van 12.8%. Qwen3.5 9B scoort -56 met 82% hallucinatie en 14.7% nauwkeurigheid. Deze zijn marginaal beter dan hun Qwen3-voorgangers (Qwen3 4B 2507: -61, 84% hallucinatie, 12.7% nauwkeurigheid), waarbij de verbetering voornamelijk wordt gedreven door lagere hallucinatiepercentages in plaats van hogere nauwkeurigheid. ➤ De Qwen3.5 sub-10B modellen combineren hoge intelligentie met native visie op een schaal die voorheen niet beschikbaar was. Op MMMU-Pro (multimodale redenering) scoort Qwen3.5 9B 69.2% en 4B scoort 65.4%, voor Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) en Ministral 3 8B (46.0%). De Qwen3.5 0.8B scoort 25.8%, wat opmerkelijk is voor een sub-1B model Andere informatie: ➤ Contextvenster: 262K tokens ➤ Licentie: Apache 2.0 ➤ Kwantisatie: Native gewichten zijn BF16. Alibaba heeft geen eerste partij GPTQ-Int4-kwantisaties voor deze kleine modellen vrijgegeven, hoewel ze dat wel hebben gedaan voor de grotere modellen in de Qwen3.5-familie die eerder zijn uitgebracht (27B, 35B-A3B, 122B-A10B, 397B-A17B). In 4-bits kwantisatie zijn alle vier de modellen toegankelijk op consumentenhardware ➤ Beschikbaarheid: Op het moment van publicatie zijn er geen eerste partij of derde partij serverloze API's die deze modellen hosten.

De Qwen3.5-generatie is een stapverandering in de intelligentie van kleine modellen ten opzichte van Qwen3. De 9B wint 15 punten ten opzichte van Qwen3 VL 8B (17 tot 32), de 4B wint 9 punten ten opzichte van Qwen3 4B 2507 (18 tot 27), de 2B wint 3 punten ten opzichte van Qwen3 1.7B (13 tot 16), en de 0.8B wint 2.5 punten ten opzichte van Qwen3 0.6B (6.5 tot 9).

De intelligentievoordelen komen met hoge tokenverbruik in vergelijking met collega's. Alle vier de sub-10B Qwen3.5 modellen gebruiken 230M+ outputtokens om de Intelligence Index te draaien - dit is aanzienlijk hoger dan de meeste frontier-modellen en de voorgangers van Qwen3.

De Qwen3.5 9B en 4B modellen zijn de meest intelligente multimodale modellen onder de 15B parameters. Op MMMU-Pro leiden Qwen3.5 9B (69%) en 4B (65%) alle sub-15B modellen.

Uiteenzetting van individuele resultaten voor alle 4 modellen

Vergelijk de Qwen3.5-familie met andere toonaangevende modellen op:

8,58K

Boven

Positie

Favorieten