Alibaba wysłał cztery małe modele Qwen 3.5 z trikiem zapożyczonym z ich modelu 397B: hybrydowa uwaga Gated DeltaNet. Trzy warstwy uwagi liniowej na każdą jedną warstwę pełnej uwagi. Warstwy liniowe obsługują rutynowe obliczenia z stałym zużyciem pamięci. Warstwy pełnej uwagi uruchamiają się tylko wtedy, gdy precyzja ma znaczenie. Ten stosunek 3:1 utrzymuje pamięć na stałym poziomie, podczas gdy jakość pozostaje wysoka, co jest powodem, dla którego nawet model 0.8B obsługuje okno kontekstowe o długości 262 000 tokenów. Każdy model obsługuje tekst, obrazy i wideo natywnie. Nie ma adaptera przyczepionego później. Koder wizji używa 3D konwolucji do uchwycenia ruchu w wideo, a następnie łączy cechy z wielu warstw zamiast tylko z ostatniej. Model 9B pokonuje GPT-5-Nano o 13 punktów w rozumieniu multimodalnym, 17 punktów w matematyce wizualnej i 30 punktów w analizie dokumentów. Model 0.8B działa na telefonie i przetwarza wideo. Model 4B mieści się w 8GB VRAM i działa jako agent multimodalny. Wszystkie cztery są na licencji Apache 2.0. Jeśli ta architektura się utrzyma, przestrzeń małych modeli właśnie stała się wyścigiem możliwości, a nie wyścigiem rozmiarów. Rok temu uruchomienie modelu multimodalnego lokalnie oznaczało model 13B+ i poważną kartę graficzną. Teraz model 4B z kontekstem 262K obsługuje tekst, obrazy i wideo z konsumenckiego sprzętu. Luka między modelami brzegowymi a modelami flagowymi zamyka się szybciej niż luka między flagowymi a ludźmi.