Alibaba wydał 4 nowe modele Qwen3.5 od 0.8B do 9B. Model 9B (Rozumowanie, 32 w Indeksie Inteligencji) jest najbardziej inteligentnym modelem poniżej 10B parametrów, a 4B (Rozumowanie, 27) jest najbardziej inteligentnym modelem poniżej 5B, ale oba używają ponad 200M tokenów wyjściowych do uruchomienia Indeksu Inteligencji @Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o cztery mniejsze gęste modele: 9B (Rozumowanie, 32 w Indeksie Inteligencji), 4B (Rozumowanie, 27), 2B (Rozumowanie, 16) i 0.8B (Rozumowanie, 9). Te modele uzupełniają większe modele 397B, 27B, 122B A10B i 35B A3B, które zostały wydane wcześniej w tym miesiącu. Wszystkie modele są licencjonowane na podstawie Apache 2.0, wspierają 262K kontekst, zawierają natywne wsparcie wizji i używają tego samego zjednoczonego podejścia hybrydowego myślenia/niedomyślenia jak reszta rodziny Qwen3.5 Kluczowe wyniki benchmarków dla wariantów rozumowania: ➤ Modele 9B i 4B są najbardziej inteligentnymi modelami w swoich klasach rozmiarowych, wyprzedzając wszystkie inne modele poniżej 10B parametrów. Qwen3.5 9B (32) zdobywa mniej więcej podwójnie więcej punktów niż najbliższe modele poniżej 10B: Falcon-H1R-7B (16) i NVIDIA Nemotron Nano 9B V2 (Rozumowanie, 15). Qwen3.5 4B (27) zdobywa więcej punktów niż wszystkie te modele, mimo że ma mniej więcej połowę parametrów. Wszystkie cztery małe modele Qwen3.5 znajdują się na granicy Pareto w wykresie Inteligencja vs. Całkowita liczba parametrów ➤ Generacja Qwen3.5 reprezentuje znaczący wzrost inteligencji w porównaniu do Qwen3 we wszystkich rozmiarach modeli poniżej 10B, z większymi zyskami przy wyższej całkowitej liczbie parametrów. Porównując warianty rozumowania: Qwen3.5 9B (32) jest o 15 punktów lepszy od Qwen3 VL 8B (17), 4B (27) zyskuje 9 punktów w porównaniu do Qwen3 4B 2507 (18), 2B (16) jest o 3 punkty lepszy od Qwen3 1.7B (szacowane 13), a 0.8B (9) zyskuje 2.5 punktu w porównaniu do Qwen3 0.6B (6.5). ➤ Wszystkie cztery modele używają 230-390M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, co jest znacznie więcej niż oba większe rodzeństwa Qwen3.5 i poprzednicy Qwen3. Qwen3.5 2B użył ~390M tokenów wyjściowych, 4B użył ~240M, 0.8B użył ~230M, a 9B użył ~260M. Dla kontekstu, znacznie większy Qwen3.5 27B użył 98M, a flagowy 397B użył 86M. Te liczby tokenów przewyższają również większość modeli granicznych: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) i GLM-5 Rozumowanie (109M) ➤ AA-Omniscience jest względną słabością, z wskaźnikami halucynacji wynoszącymi 80-82% dla 4B i 9B. Qwen3.5 4B zdobywa -57 w AA-Omniscience z wskaźnikiem halucynacji wynoszącym 80% i dokładnością 12.8%. Qwen3.5 9B zdobywa -56 z 82% halucynacji i 14.7% dokładności. To są marginalnie lepsze wyniki niż ich poprzednicy Qwen3 (Qwen3 4B 2507: -61, 84% halucynacji, 12.7% dokładności), przy czym poprawa wynika głównie z niższych wskaźników halucynacji, a nie wyższej dokładności. ➤ Modele Qwen3.5 poniżej 10B łączą wysoką inteligencję z natywną wizją w skali wcześniej niedostępnej. Na MMMU-Pro (rozumowanie multimodalne), Qwen3.5 9B zdobywa 69.2%, a 4B zdobywa 65.4%, wyprzedzając Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) i Ministral 3 8B (46.0%). Qwen3.5 0.8B zdobywa 25.8%, co jest godne uwagi dla modelu poniżej 1B Inne informacje: ➤ Okno kontekstowe: 262K tokenów ➤ Licencja: Apache 2.0 ➤ Kwantyzacja: Natywne wagi to BF16. Alibaba nie wydał pierwszych kwantyzacji GPTQ-Int4 dla tych małych modeli, chociaż zrobił to dla większych modeli w rodzinie Qwen3.5 wydanych wcześniej (27B, 35B-A3B, 122B-A10B, 397B-A17B). W kwantyzacji 4-bitowej wszystkie cztery modele są dostępne na sprzęcie konsumenckim ➤ Dostępność: W momencie publikacji nie ma pierwszych ani trzecich stron serwerless API hostujących te modele.
Generacja Qwen3.5 to krok w kierunku zmiany inteligencji małych modeli w porównaniu do Qwen3. Model 9B zyskuje 15 punktów w porównaniu do Qwen3 VL 8B (17 do 32), model 4B zyskuje 9 punktów w porównaniu do Qwen3 4B 2507 (18 do 27), model 2B zyskuje 3 punkty w porównaniu do Qwen3 1.7B (13 do 16), a model 0.8B zyskuje 2.5 punktu w porównaniu do Qwen3 0.6B (6.5 do 9).
Zyski z inteligencji wiążą się z wysokim zużyciem tokenów w porównaniu do konkurencji. Wszystkie cztery modele Qwen3.5 poniżej 10B używają ponad 230M tokenów wyjściowych do uruchomienia Indeksu Inteligencji - jest to znacznie więcej niż w przypadku większości modeli frontier oraz poprzedników Qwen3.
Modele Qwen3.5 9B i 4B to najbardziej inteligentne modele multimodalne poniżej 15B parametrów. Na MMMU-Pro, Qwen3.5 9B (69%) i 4B (65%) prowadzą wśród wszystkich modeli poniżej 15B.
Szczegółowe wyniki dla wszystkich 4 modeli
Porównaj rodzinę Qwen3.5 z innymi wiodącymi modelami na:
8,55K