Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba dodala čtyři malé modely Qwen 3.5 s trikem převzatým z modelu 397B: uzavřenou DeltaNet hybridní pozornost.
Tři vrstvy lineární pozornosti na každou jednu vrstvu plné pozornosti.
Lineární vrstvy zvládají rutinní výpočty s konstantním využitím paměti. Vrstvy plné pozornosti se střílejí jen tehdy, když záleží na přesnosti.
Tento poměr 3:1 udržuje paměť rovnou a zároveň vysokou kvalitu, což je důvod, proč i model 0,8B podporuje kontextové okno o 262 000 tokenech.
Každý model zpracovává text, obrázky a video nativně.
Poté už žádný adaptér nepřišroubovaný. Vision enkoder používá 3D konvoluce k zachycení pohybu ve videu a poté spojuje prvky z více vrstev místo pouze z finální.
9B poráží GPT-5-Nano o 13 bodů v multimodálním porozumění, 17 bodů ve vizuální matematice a 30 bodů v parsování dokumentů. Verze 0.8B běží na telefonu a zpracovává video. 4B pojme 8GB VRAM a funguje jako multimodální agent. Všechny čtyři jsou Apache 2.0.
Pokud tato architektura vydrží, malý modelový prostor se stal spíše závodem schopností než velikostí.
Před rokem znamenalo lokální spuštění multimodálního modelu model 13B+ a vážnou grafickou kartu.
Nyní 4B model s kontextem 262K zpracovává text, obrázky a video z uživatelského hardwaru.
Propast mezi edge modely a vlajkovými modely se zmenšuje rychleji než mezi vlajkovými modely a lidmi.
Top
Hodnocení
Oblíbené
