Alibaba выпустила 4 новые модели Qwen3.5 от 0.8B до 9B. Модель 9B (Reasoning, 32 по Индексу Интеллекта) является самой интеллектуальной моделью с параметрами менее 10B, а 4B (Reasoning, 27) — самой интеллектуальной моделью с параметрами менее 5B, но обе используют более 200M выходных токенов для работы с Индексом Интеллекта. @Alibaba_Qwen расширила семью Qwen3.5 четырьмя меньшими плотными моделями: 9B (Reasoning, 32 по Индексу Интеллекта), 4B (Reasoning, 27), 2B (Reasoning, 16) и 0.8B (Reasoning, 9). Эти модели дополняют более крупные модели 397B, 27B, 122B A10B и 35B A3B, выпущенные ранее в этом месяце. Все модели имеют лицензию Apache 2.0, поддерживают контекст 262K, включают нативную поддержку зрения и используют тот же унифицированный подход к мышлению/немышлению, что и остальные модели семейства Qwen3.5. Ключевые результаты бенчмаркинга для вариантов reasoning: ➤ 9B и 4B являются самыми интеллектуальными моделями в своих классах размеров, опережая все другие модели с параметрами менее 10B. Qwen3.5 9B (32) набирает примерно в два раза больше, чем ближайшие модели с параметрами менее 10B: Falcon-H1R-7B (16) и NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) обходит все эти модели, несмотря на то, что имеет примерно половину параметров. Все четыре маленькие модели Qwen3.5 находятся на границе Парето в графике Интеллекта против Общих Параметров. ➤ Поколение Qwen3.5 представляет собой значительное повышение интеллекта по сравнению с Qwen3 во всех моделях с параметрами менее 10B, с большими приростами при более высоких общих количествах параметров. Сравнивая варианты reasoning: Qwen3.5 9B (32) на 15 пунктов опережает Qwen3 VL 8B (17), 4B (27) набирает на 9 пунктов больше, чем Qwen3 4B 2507 (18), 2B (16) на 3 пункта опережает Qwen3 1.7B (оценка 13), а 0.8B (9) набирает на 2.5 пункта больше, чем Qwen3 0.6B (6.5). ➤ Все четыре модели используют 230-390M выходных токенов для работы с Индексом Интеллекта, что значительно больше, чем у более крупных сестер Qwen3.5 и предшественников Qwen3. Qwen3.5 2B использовала ~390M выходных токенов, 4B использовала ~240M, 0.8B использовала ~230M, а 9B использовала ~260M. Для контекста, гораздо более крупная Qwen3.5 27B использовала 98M, а флагманская модель 397B использовала 86M. Эти количества токенов также превышают большинство моделей на переднем крае: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) и GLM-5 Reasoning (109M). ➤ AA-Omniscience является относительной слабостью, с уровнями галлюцинаций 80-82% для 4B и 9B. Qwen3.5 4B набирает -57 по AA-Omniscience с уровнем галлюцинаций 80% и точностью 12.8%. Qwen3.5 9B набирает -56 с 82% галлюцинаций и 14.7% точности. Эти результаты немного лучше, чем у их предшественников Qwen3 (Qwen3 4B 2507: -61, 84% галлюцинаций, 12.7% точности), при этом улучшение в первую очередь обусловлено более низкими уровнями галлюцинаций, а не более высокой точностью. ➤ Модели Qwen3.5 с параметрами менее 10B объединяют высокий интеллект с нативным зрением на масштабе, который ранее был недоступен. На MMMU-Pro (мультимодальное reasoning) Qwen3.5 9B набирает 69.2%, а 4B набирает 65.4%, опережая Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) и Ministral 3 8B (46.0%). Qwen3.5 0.8B набирает 25.8%, что примечательно для модели с параметрами менее 1B. Дополнительная информация: ➤ Окно контекста: 262K токенов ➤ Лицензия: Apache 2.0 ➤ Квантование: Нативные веса — BF16. Alibaba не выпустила квантования GPTQ-Int4 первого уровня для этих маленьких моделей, хотя они выпустили их для более крупных моделей в семействе Qwen3.5, выпущенных ранее (27B, 35B-A3B, 122B-A10B, 397B-A17B). В 4-битном квантовании все четыре модели доступны на потребительском оборудовании. ➤ Доступность: На момент публикации нет серверных API первого или третьего уровня, которые бы размещали эти модели.
Поколение Qwen3.5 представляет собой значительный шаг в развитии интеллекта малых моделей по сравнению с Qwen3. Модель 9B набирает 15 баллов по сравнению с Qwen3 VL 8B (17 до 32), модель 4B набирает 9 баллов по сравнению с Qwen3 4B 2507 (18 до 27), модель 2B набирает 3 балла по сравнению с Qwen3 1.7B (13 до 16), а модель 0.8B набирает 2.5 балла по сравнению с Qwen3 0.6B (6.5 до 9).
Приобретение интеллектуальных преимуществ происходит за счет высокой нагрузки токенов по сравнению с аналогами. Все четыре модели Qwen3.5 с объемом менее 10 миллиардов используют более 230 миллионов выходных токенов для работы Индекса Интеллекта — это значительно больше, чем у большинства передовых моделей, а также у предшественников Qwen3.
Модели Qwen3.5 9B и 4B являются самыми интеллектуальными мультимодальными моделями с параметрами менее 15B. На MMMU-Pro Qwen3.5 9B (69%) и 4B (65%) опережают все модели с параметрами менее 15B.
Разбивка индивидуальных результатов для всех 4 моделей
Сравните семью Qwen3.5 с другими ведущими моделями на:
8,56K