DApp Store | Web3 Hub for hendelser og spill

Populære emner

Alibaba leverte fire Qwen 3.5 små modeller med et triks lånt fra deres 397B-modell: Gated DeltaNet hybrid attention. Tre lag med lineær oppmerksomhet for hvert lag med full oppmerksomhet. De lineære lagene håndterer rutinemessig beregning med konstant minnebruk. Lagene med full oppmerksomhet aktiveres bare når presisjon betyr noe. Dette 3:1-forholdet holder minnet flatt mens kvaliteten forblir høy, og derfor støtter selv 0,8B-modellen et kontekstvindu med 262 000 tokens. Hver modell håndterer tekst, bilder og video nativt. Ingen adapter er skrudd på etterpå. Visjonskoderen bruker 3D-konvolusjoner for å fange bevegelse i video, og slår deretter sammen funksjoner fra flere lag i stedet for bare det endelige. 9B slår GPT-5-Nano med 13 poeng på multimodal forståelse, 17 poeng på visuell matematikk og 30 poeng på dokumentparsing. 0,8 B kjører på en telefon og behandler video. 4B-en får plass til 8 GB VRAM og fungerer som en multimodal agent. Alle fire er Apache 2.0. Hvis denne arkitekturen holder, ble det lille modellrommet bare et kapabilitetskappløp i stedet for et størrelseskappløp. For et år siden betydde det å kjøre en multimodal modell lokalt en 13B+ modell og en seriøs GPU. Nå håndterer en 4B-modell med 262K kontekst tekst, bilder og video fra forbrukermaskinvare. Gapet mellom edge-modeller og flaggskipmodeller krymper raskere enn gapet mellom flaggskip og mennesker.

Topp

Rangering

Favoritter