Alibaba ha rilasciato 4 nuovi modelli Qwen3.5 da 0.8B a 9B. Il 9B (Ragionamento, 32 nell'Indice di Intelligenza) è il modello più intelligente sotto i 10B parametri, e il 4B (Ragionamento, 27) è il più intelligente sotto i 5B, ma entrambi utilizzano oltre 200M di token di output per eseguire l'Indice di Intelligenza @Alibaba_Qwen ha ampliato la famiglia Qwen3.5 con quattro modelli densi più piccoli: il 9B (Ragionamento, 32 nell'Indice di Intelligenza), 4B (Ragionamento, 27), 2B (Ragionamento, 16) e 0.8B (Ragionamento, 9). Questi completano i modelli più grandi 397B, 27B, 122B A10B e 35B A3B rilasciati all'inizio di questo mese. Tutti i modelli sono con licenza Apache 2.0, supportano 262K di contesto, includono supporto visivo nativo e utilizzano lo stesso approccio ibrido di pensiero/non pensiero unificato come il resto della famiglia Qwen3.5 Risultati chiave di benchmarking per le varianti di ragionamento: ➤ Il 9B e il 4B sono i modelli più intelligenti nelle rispettive classi di dimensione, davanti a tutti gli altri modelli sotto i 10B parametri. Qwen3.5 9B (32) ottiene circa il doppio dei punteggi rispetto ai modelli più vicini sotto i 10B: Falcon-H1R-7B (16) e NVIDIA Nemotron Nano 9B V2 (Ragionamento, 15). Qwen3.5 4B (27) supera tutti questi nonostante abbia circa la metà dei parametri. Tutti e quattro i piccoli modelli Qwen3.5 si trovano sul confine di Pareto del grafico Intelligenza vs. Parametri Totali ➤ La generazione Qwen3.5 rappresenta un significativo aumento di intelligenza rispetto a Qwen3 in tutte le dimensioni dei modelli sotto i 10B, con guadagni maggiori a conteggi di parametri totali più elevati. Confrontando le varianti di ragionamento: Qwen3.5 9B (32) è 15 punti avanti rispetto a Qwen3 VL 8B (17), il 4B (27) guadagna 9 punti rispetto a Qwen3 4B 2507 (18), il 2B (16) è 3 punti avanti rispetto a Qwen3 1.7B (stimato 13), e il 0.8B (9) guadagna 2.5 punti rispetto a Qwen3 0.6B (6.5). ➤ Tutti e quattro i modelli utilizzano 230-390M di token di output per eseguire l'Indice di Intelligenza, significativamente più rispetto ai modelli Qwen3.5 più grandi e ai predecessori Qwen3. Qwen3.5 2B ha utilizzato ~390M di token di output, 4B ha utilizzato ~240M, 0.8B ha utilizzato ~230M, e 9B ha utilizzato ~260M. Per contesto, il molto più grande Qwen3.5 27B ha utilizzato 98M e il flagship 397B ha utilizzato 86M. Questi conteggi di token superano anche la maggior parte dei modelli di frontiera: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) e GLM-5 Ragionamento (109M) ➤ L'AA-Omniscienza è una debolezza relativa, con tassi di allucinazione dell'80-82% per il 4B e il 9B. Qwen3.5 4B ottiene -57 su AA-Omniscienza con un tasso di allucinazione dell'80% e un'accuratezza del 12.8%. Qwen3.5 9B ottiene -56 con un'82% di allucinazione e un'accuratezza del 14.7%. Questi sono marginalmente migliori rispetto ai loro predecessori Qwen3 (Qwen3 4B 2507: -61, 84% di allucinazione, 12.7% di accuratezza), con il miglioramento guidato principalmente da tassi di allucinazione più bassi piuttosto che da un'accuratezza più alta. ➤ I modelli Qwen3.5 sotto i 10B combinano alta intelligenza con visione nativa a una scala precedentemente non disponibile. Su MMMU-Pro (ragionamento multimodale), Qwen3.5 9B ottiene il 69.2% e il 4B ottiene il 65.4%, davanti a Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) e Ministral 3 8B (46.0%). Il Qwen3.5 0.8B ottiene il 25.8%, che è notevole per un modello sotto 1B Altre informazioni: ➤ Finestra di contesto: 262K token ➤ Licenza: Apache 2.0 ➤ Quantizzazione: I pesi nativi sono BF16. Alibaba non ha rilasciato quantizzazioni GPTQ-Int4 di prima parte per questi piccoli modelli, anche se lo ha fatto per i modelli più grandi nella famiglia Qwen3.5 rilasciati in precedenza (27B, 35B-A3B, 122B-A10B, 397B-A17B). In quantizzazione a 4 bit, tutti e quattro i modelli sono accessibili su hardware consumer ➤ Disponibilità: Al momento della pubblicazione, non ci sono API serverless di prima parte o di terze parti che ospitano questi modelli.
La generazione Qwen3.5 rappresenta un cambiamento significativo nell'intelligenza dei modelli piccoli rispetto a Qwen3. Il 9B guadagna 15 punti rispetto a Qwen3 VL 8B (da 17 a 32), il 4B guadagna 9 punti rispetto a Qwen3 4B 2507 (da 18 a 27), il 2B guadagna 3 punti rispetto a Qwen3 1.7B (da 13 a 16), e l'0.8B guadagna 2.5 punti rispetto a Qwen3 0.6B (da 6.5 a 9).
I guadagni in termini di intelligenza comportano un elevato utilizzo di token rispetto ai concorrenti. Tutti e quattro i modelli Qwen3.5 sotto i 10 miliardi utilizzano oltre 230 milioni di token in output per eseguire l'Intelligence Index - questo è significativamente più alto rispetto alla maggior parte dei modelli di frontiera e ai predecessori di Qwen3.
I modelli Qwen3.5 9B e 4B sono i modelli multimodali più intelligenti sotto i 15 miliardi di parametri. Su MMMU-Pro, Qwen3.5 9B (69%) e 4B (65%) guidano tutti i modelli sotto i 15 miliardi.
Analisi dei risultati individuali per tutti e 4 i modelli
Confronta la famiglia Qwen3.5 con altri modelli leader su:
8,56K