Alibaba a lancé 4 nouveaux modèles Qwen3.5 allant de 0.8B à 9B. Le 9B (Raisonnement, 32 sur l'Indice d'Intelligence) est le modèle le plus intelligent sous 10B paramètres, et le 4B (Raisonnement, 27) le plus intelligent sous 5B, mais les deux utilisent plus de 200M de tokens de sortie pour faire fonctionner l'Indice d'Intelligence @Alibaba_Qwen a élargi la famille Qwen3.5 avec quatre modèles denses plus petits : le 9B (Raisonnement, 32 sur l'Indice d'Intelligence), 4B (Raisonnement, 27), 2B (Raisonnement, 16) et 0.8B (Raisonnement, 9). Ceux-ci complètent les plus grands modèles 397B, 27B, 122B A10B et 35B A3B lancés plus tôt ce mois-ci. Tous les modèles sont sous licence Apache 2.0, supportent 262K de contexte, incluent un support de vision natif et utilisent la même approche hybride de pensée/non-pensée unifiée que le reste de la famille Qwen3.5 Résultats clés des benchmarks pour les variantes de raisonnement : ➤ Le 9B et le 4B sont les modèles les plus intelligents dans leurs classes de taille respectives, devant tous les autres modèles sous 10B paramètres. Qwen3.5 9B (32) obtient environ le double des scores des modèles les plus proches sous 10B : Falcon-H1R-7B (16) et NVIDIA Nemotron Nano 9B V2 (Raisonnement, 15). Qwen3.5 4B (27) surpasse tous ces modèles malgré un nombre de paramètres environ deux fois inférieur. Tous les quatre petits modèles Qwen3.5 se trouvent sur le front de Pareto du graphique Intelligence vs. Total des Paramètres ➤ La génération Qwen3.5 représente une augmentation significative de l'intelligence par rapport à Qwen3 dans toutes les tailles de modèles sous 10B, avec des gains plus importants à des nombres de paramètres totaux plus élevés. En comparant les variantes de raisonnement : Qwen3.5 9B (32) est 15 points devant Qwen3 VL 8B (17), le 4B (27) gagne 9 points par rapport à Qwen3 4B 2507 (18), le 2B (16) est 3 points devant Qwen3 1.7B (estimé à 13), et le 0.8B (9) gagne 2.5 points par rapport à Qwen3 0.6B (6.5). ➤ Tous les quatre modèles utilisent entre 230 et 390M de tokens de sortie pour faire fonctionner l'Indice d'Intelligence, ce qui est significativement plus que les modèles Qwen3.5 plus grands et les prédécesseurs Qwen3. Qwen3.5 2B a utilisé environ 390M de tokens de sortie, 4B a utilisé environ 240M, 0.8B a utilisé environ 230M, et 9B a utilisé environ 260M. Pour le contexte, le modèle Qwen3.5 27B beaucoup plus grand a utilisé 98M et le modèle phare 397B a utilisé 86M. Ces comptes de tokens dépassent également la plupart des modèles de pointe : Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) et GLM-5 Raisonnement (109M) ➤ L'AA-Omniscience est une faiblesse relative, avec des taux d'hallucination de 80-82% pour le 4B et le 9B. Qwen3.5 4B obtient -57 sur l'AA-Omniscience avec un taux d'hallucination de 80% et une précision de 12.8%. Qwen3.5 9B obtient -56 avec 82% d'hallucination et 14.7% de précision. Ceux-ci sont légèrement meilleurs que leurs prédécesseurs Qwen3 (Qwen3 4B 2507 : -61, 84% d'hallucination, 12.7% de précision), l'amélioration étant principalement due à des taux d'hallucination plus bas plutôt qu'à une précision plus élevée. ➤ Les modèles Qwen3.5 sub-10B combinent une intelligence élevée avec une vision native à une échelle auparavant indisponible. Sur MMMU-Pro (raisonnement multimodal), Qwen3.5 9B obtient 69.2% et 4B obtient 65.4%, devant Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) et Ministral 3 8B (46.0%). Le Qwen3.5 0.8B obtient 25.8%, ce qui est notable pour un modèle sub-1B Autres informations : ➤ Fenêtre de contexte : 262K tokens ➤ Licence : Apache 2.0 ➤ Quantification : Les poids natifs sont BF16. Alibaba n'a pas publié de quantifications GPTQ-Int4 de première partie pour ces petits modèles, bien qu'ils l'aient fait pour les modèles plus grands de la famille Qwen3.5 publiés plus tôt (27B, 35B-A3B, 122B-A10B, 397B-A17B). En quantification 4 bits, tous les quatre modèles sont accessibles sur du matériel grand public ➤ Disponibilité : Au moment de la publication, il n'y a pas d'APIs serverless de première ou de troisième partie hébergeant ces modèles.
La génération Qwen3.5 représente un changement radical en matière d'intelligence des petits modèles par rapport à Qwen3. Le 9B gagne 15 points par rapport à Qwen3 VL 8B (17 à 32), le 4B gagne 9 points par rapport à Qwen3 4B 2507 (18 à 27), le 2B gagne 3 points par rapport à Qwen3 1.7B (13 à 16), et le 0.8B gagne 2,5 points par rapport à Qwen3 0.6B (6,5 à 9).
Les gains en intelligence se font au prix d'une utilisation élevée des tokens par rapport aux pairs. Tous les quatre modèles Qwen3.5 de moins de 10 milliards utilisent plus de 230 millions de tokens de sortie pour faire fonctionner l'Index d'Intelligence - c'est significativement plus élevé que la plupart des modèles de pointe ainsi que les prédécesseurs de Qwen3.
Les modèles Qwen3.5 9B et 4B sont les modèles multimodaux les plus intelligents de moins de 15 milliards de paramètres. Sur MMMU-Pro, Qwen3.5 9B (69 %) et 4B (65 %) dominent tous les modèles de moins de 15 milliards.
Répartition des résultats individuels pour les 4 modèles
Comparez la famille Qwen3.5 avec d'autres modèles leaders à :
8,55K