Alibaba toimitti neljä Qwen 3.5 -pientä mallia, joissa oli temppu, joka oli lainattu heidän 397B-mallistaan: Gated DeltaNet -hybridihuomio. Kolme tasoa lineaarista huomiota jokaista täyttä tarkkaavaisuuden kerrosta kohden. Lineaariset kerrokset hoitavat rutiinilaskennan jatkuvalla muistinkäytöllä. Täysi huomio ampuu vain, kun tarkkuus on tärkeää. Tämä 3:1-suhde pitää muistin tasaisena samalla kun laatu pysyy korkeana, minkä vuoksi jopa 0,8B-malli tukee 262 000 tokenin kontekstiikkunaa. Jokainen malli käsittelee tekstiä, kuvia ja videota natiivisti. Sovitinta ei kiinnitetty sen jälkeen. Vision enkooderi käyttää 3D-konvoluutioita videon liikkeen tallentamiseen ja yhdistää ominaisuuksia useista kerroksista pelkän viimeisen sijaan. 9B voittaa GPT-5-Nanoa 13 pisteellä multimodaalisessa ymmärtämisessä, 17 pisteellä visuaalisessa matematiikassa ja 30 pisteellä dokumenttien jäsentämisessä. 0.8B pyörii puhelimessa ja käsittelee videota. 4B mahtuu 8GB VRAM-muistiin ja toimii multimodaalisena agenttina. Kaikki neljä ovat Apache 2.0. Jos tämä arkkitehtuuri pitää paikkansa, pieni mallitila muuttui kyvykkyyskilpailuksi kokokilpailun sijaan. Vuosi sitten monimodaalinen malli paikallisesti tarkoitti 13B+ mallia ja vakavaa GPU:ta. Nyt 4B-malli, jossa on 262K kontekstia, käsittelee tekstiä, kuvia ja videoita kuluttajalaitteista. Reunamallien ja lippulaivamallien välinen kuilu kaventuu nopeammin kuin lippulaivojen ja ihmisten välinen ero.