Alibaba har lansert 4 nye Qwen3.5-modeller fra 0.8B til 9B. 9B (Reasoning, 32 på Intelligence Index) er den mest intelligente modellen under 10B parametere, og 4B (Reasoning, 27) den mest intelligente under 5B, men begge bruker 200M+ outputtokens for å kjøre Intelligence Index @Alibaba_Qwen har utvidet Qwen3.5-familien med fire mindre tette modeller: 9B (Resonnering, 32 på intelligensindeksen), 4B (Resonnering, 27), 2B (Resonnering, 16) og 0.8B (Resonnering, 9). Disse kompletterer de større modellene 397B, 27B, 122B A10B og 35B A3B som ble lansert tidligere denne måneden. Alle modellene er Apache 2.0-lisensierte, støtter 262K-kontekst, inkluderer innebygd synsstøtte, og bruker samme hybride tilnærming med enhetlig tenkning og ikke-tenkning som resten av Qwen3.5-familien Viktige benchmarkingresultater for resonnementvariantene: ➤ 9B og 4B er de mest intelligente modellene i sine respektive størrelsesklasser, foran alle andre modeller under 10B-parametere. Qwen3.5 9B (32) scorer omtrent dobbelt så høyt som de neste modellene under 10B: Falcon-H1R-7B (16) og NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) scorer bedre enn alle disse til tross for at den har omtrent halvparten av parameterne. Alle de fire små Qwen3.5-modellene befinner seg på Pareto-grensen i diagrammet for intelligens vs. totale parametere ➤ Qwen3.5-genereringen representerer en materiell intelligensøkning over Qwen3 på tvers av alle modellstørrelser under 10 milliarder, med større gevinster ved høyere totale parameterantall. Sammenligning av resonnementvarianter: Qwen3.5 9B (32) er 15 poeng foran Qwen3 VL 8B (17), 4B (27) øker 9 poeng over Qwen3 4B 2507 (18), 2B (16) er 3 poeng foran Qwen3 1.7B (estimert 13), og 0,8B (9) øker 2,5 poeng over Qwen3 0,6B (6.5). ➤ Alle fire modellene bruker 230-390M utdatatoken for å kjøre Intelligence Index, betydelig mer enn både de større Qwen3.5-søsknene og Qwen3-forgjengerne. Qwen3.5 2B brukte ~390M utgangstoken, 4B brukte ~240M, 0.8B brukte ~230M, og 9B brukte ~260M. For kontekst brukte den mye større Qwen3.5 27B 98M, og flaggskipet 397B brukte 86M. Disse token-tallene overstiger også de fleste frontier-modeller: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) og GLM-5 Reasoning (109M) ➤ AA-Allvitenhet er en relativ svakhet, med hallusinasjonsrater på 80-82 % for 4B og 9B. Qwen3.5 4B scorer -57 på AA-Omniscience med en hallusinasjonsrate på 80 % og nøyaktighet på 12,8 %. Qwen3.5 9B scorer -56 med 82 % hallusinasjon og 14,7 % nøyaktighet. Disse er marginalt bedre enn sine Qwen3-forgjengere (Qwen3 4B 2507: -61, 84 % hallusinasjoner, 12,7 % nøyaktighet), med forbedringen hovedsakelig drevet av lavere hallusinasjonsrater snarere enn høyere nøyaktighet. ➤ Qwen3.5 sub-10B-modellene kombinerer høy intelligens med naturlig syn i en skala som tidligere ikke var tilgjengelig. På MMMU-Pro (multimodal resonnement) scorer Qwen3.5 9B 69,2 % og 4B 65,4 %, foran Qwen3 VL 8B (56,6 %), Qwen3 VL 4B (52,0 %) og Ministral 3 8B (46,0 %). Qwen3.5 0.8B scorer 25,8 %, noe som er bemerkelsesverdig for en modell under 1B Annen informasjon: ➤ Kontekstvindu: 262K tokens ➤ Lisens: Apache 2.0 ➤ Kvantisering: Native vekter er BF16. Alibaba har ikke gitt ut førsteparts GPTQ-Int4-kvantiseringer for disse små modellene, men de har gjort det for de større modellene i Qwen3.5-familien som ble lansert tidligere (27B, 35B-A3B, 122B-A10B, 397B-A17B). I 4-bits kvantisering er alle fire modellene tilgjengelige på forbrukermaskinvare ➤ Tilgjengelighet: På publiseringstidspunktet finnes det ingen førsteparts- eller tredjeparts serverløse API-er som hoster disse modellene
Qwen3.5-generasjonen er et stort skifte i småmodellintelligens sammenlignet med Qwen3. 9B øker 15 poeng over Qwen3 VL 8B (17 til 32), 4B øker 9 poeng over Qwen3 4B 2507 (18 til 27), 2B øker 3 poeng over Qwen3 1,7B (13 til 16), og 0,8B øker 2,5 poeng over Qwen3 0,6B (6,5 til 9).
Intelligensgevinstene kommer på bekostning av høy tokenbruk sammenlignet med jevnaldrende. Alle de fire Qwen3.5-modellene under 10B bruker 230M+ utgangstokens for å kjøre Intelligence Index – dette er betydelig høyere enn de fleste frontier-modeller samt Qwen3-forgjengerne
Qwen3.5 9B og 4B modellene er de mest intelligente multimodale modellene under 15B parametere. På MMMU-Pro leder Qwen3.5 9B (69 %) og 4B (65 %) alle modeller under 15B
Fordeling av individuelle resultater for alle 4 modellene
Sammenlign Qwen3.5-familien med andre ledende modeller på:
8,56K