DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Alibaba levererade fyra Qwen 3.5 små modeller med ett trick lånat från deras 397B-modell: Gated DeltaNet hybrid attention. Tre lager av linjär uppmärksamhet för varje lager av full uppmärksamhet. De linjära lagren hanterar rutinmässig beräkning med konstant minnesanvändning. De fulla uppmärksamhetslagren avfyras bara när precisionen spelar roll. Detta 3:1-förhållande håller minnet platt medan kvaliteten förblir hög, vilket är anledningen till att även 0,8B-modellen stödjer ett kontextfönster med 262 000 tokens. Varje modell hanterar text, bilder och video nativt. Ingen adapter fastbultad efteråt. Visionskodaren använder 3D-konvolutioner för att fånga rörelse i video, och slår sedan ihop funktioner från flera lager istället för bara det sista. 9B slår GPT-5-Nano med 13 poäng i multimodal förståelse, 17 poäng i visuell matematik och 30 poäng i dokumentanalys. 0,8B körs på en telefon och bearbetar video. 4B-enheten rymmer i 8 GB VRAM och fungerar som en multimodal agent. Alla fyra är Apache 2.0. Om denna arkitektur håller har det lilla modellutrymmet bara blivit en kapabilitetskapplöpning istället för en storlekskapplöpning. För ett år sedan innebar det att köra en multimodal modell lokalt en 13B+ modell och ett seriöst grafikkort. Nu hanterar en 4B-modell med 262K-kontext text, bilder och video från konsumenthårdvara. Gapet mellan edge-modeller och flaggskeppsmodeller minskar snabbare än gapet mellan flaggskepp och människor.

Topp

Rankning

Favoriter