Alibaba rozszerzył swoją rodzinę modeli Qwen3.5 o 3 nowe modele - model 27B wyróżnia się, zdobywając 42 punkty w Indeksie Analizy Sztucznej Inteligencji i dorównując modelom o otwartych wagach, które są 8-25 razy większe @Alibaba_Qwen rozszerzył rodzinę Qwen3.5 o trzy nowe modele obok flagowego modelu 397B wydanego na początku tego miesiąca: Qwen3.5 27B (gęsty, zdobywający 42 punkty w Indeksie Inteligencji), Qwen3.5 122B A10B (MoE, 42) oraz Qwen3.5 35B A3B (MoE, 37). Dwa modele MoE (Mixture-of-Experts) aktywują tylko część całkowitych parametrów na jeden przebieg (10B z 122B i ~3B z 35B odpowiednio). Indeks Inteligencji to nasza metryka syntezująca, obejmująca 10 ocen dotyczących ogólnego rozumowania, zadań agentowych, kodowania i rozumowania naukowego. Wszystkie modele są licencjonowane na podstawie Apache 2.0, natywnie obsługują 262K kontekstu i wracają do zjednoczonej architektury myślenia/niemyslenia hybrydowego z oryginalnego Qwen3, po tym jak Alibaba przeszedł do oddzielnych punktów kontrolnych Instruct i Reasoning z aktualizacjami Qwen3 2507. Kluczowe wyniki benchmarków dla wariantów rozumowania: ➤ Qwen3.5 27B zdobywa 42 punkty w Indeksie Inteligencji i jest najinteligentniejszym modelem poniżej 230B. Najbliższy model o podobnej wielkości to GLM-4.7-Flash (31B całkowite, 3B aktywne), który zdobywa 30 punktów. Modele o otwartych wagach o równoważnej inteligencji są 8-25 razy większe pod względem całkowitych parametrów: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) i GLM-4.7 (357B, 42). W precyzji FP8 zajmuje ~27GB, aby przechować wagi modelu, podczas gdy w kwantyzacji 4-bitowej można używać sprzętu o jakości laptopa z 16GB+ RAM ➤ Qwen3.5 27B zdobywa 1205 punktów w GDPval-AA (Agentowe Zrealizowane Prace w Świecie), co stawia go obok większych modeli. Dla kontekstu, MiniMax-M2.5 zdobywa 1206, GLM-4.7 (Rozumowanie) zdobywa 1200, a DeepSeek V3.2 (Rozumowanie) zdobywa 1194. To jest szczególnie godne uwagi dla modelu o 27B parametrach i sugeruje silne zdolności agentowe jak na jego rozmiar. Testy GDPval-AA oceniają modele w rzeczywistych zadaniach w 44 zawodach i 9 głównych branżach ➤ AA-Omniscience pozostaje względną słabością w całej rodzinie Qwen3.5, napędzaną głównie przez niższą dokładność, a nie wskaźnik halucynacji. Qwen3.5 27B zdobywa -42 w AA-Omniscience, porównywalnie z MiniMax-M2.5 (-40), ale za DeepSeek V3.2 (-21) i GLM-4.7 (-35). Chociaż wskaźnik halucynacji Qwen3.5 27B (80%) jest niższy niż u rówieśników (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), jego dokładność jest również niższa na poziomie 21% w porównaniu do 34% dla DeepSeek V3.2 i 29% dla GLM-4.7. To prawdopodobnie jest konsekwencją rozmiaru modelu - ogólnie zaobserwowaliśmy, że modele z większą liczbą całkowitych parametrów lepiej radzą sobie z dokładnością w AA-Omniscience, ponieważ szersze przypomnienie wiedzy korzysta z większej liczby parametrów ➤ Qwen3.5 27B jest równoważnie inteligentny jak Qwen3.5 122B A10B. 122B A10B to model Mixture-of-Experts, który aktywuje tylko 10B ze swoich 122B całkowitych parametrów na jeden przebieg. Model 27B prowadzi w GDPval-AA (1205 Elo vs 1145 Elo) i nieznacznie w TerminalBench (+1.5 p.p.), podczas gdy model 122B prowadzi w SciCode (+2.5 p.p.), HLE (+1.2 p.p.) i ma niższy wskaźnik halucynacji (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Rozumowanie, 37) jest najinteligentniejszym modelem z ~3B aktywnych parametrów, 7 punktów przed GLM-4.7-Flash (30). Inne modele w tej kategorii ~3B aktywnych to Qwen3 Coder Next (80B całkowite, 28), Qwen3 Next 80B A3B (27) oraz NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B użył 98M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, kosztując ~$299 za pośrednictwem API Alibaba Cloud. To jest zauważalnie wysokie zużycie tokenów w porównaniu do modeli o podobnej inteligencji: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), a nawet większy Qwen3.5 397B (86M). Inne informacje: ➤ Okno kontekstowe: 262K tokenów (rozszerzalne do 1M za pomocą YaRN) ➤ Licencja: Apache 2.0 ➤ Ceny API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 za 1M tokenów wejściowych/wyjściowych
Qwen3.5 27B wyróżnia się zdolnością agentową przy swoim rozmiarze modelu. Z Elo wynoszącym 1205 na GDPval-AA, dorównuje modelom z 8-25 razy większą liczbą parametrów i ustępuje flagowemu modelowi 397B (1208) tylko o 3 punkty, mimo że jest ~14 razy mniejszy.
Wśród modeli o otwartych wagach z 40 miliardami parametrów lub mniej, Qwen3.5 27B i 35B A3B wyróżniają się jako wyraźni liderzy w Indeksie Inteligencji. Następnym najbardziej inteligentnym modelem w tej kategorii rozmiarowej jest GLM-4.7-Flash (30)
Porównaj pełną rodzinę Qwen3.5 z innymi wiodącymi modelami na: Repozytorium Qwen3.5 27B na HuggingFace:
3,63K