Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba wysłał cztery małe modele Qwen 3.5 z trikiem zapożyczonym z ich modelu 397B: hybrydowa uwaga Gated DeltaNet.
Trzy warstwy uwagi liniowej na każdą jedną warstwę pełnej uwagi.
Warstwy liniowe obsługują rutynowe obliczenia z stałym zużyciem pamięci. Warstwy pełnej uwagi uruchamiają się tylko wtedy, gdy precyzja ma znaczenie.
Ten stosunek 3:1 utrzymuje pamięć na stałym poziomie, podczas gdy jakość pozostaje wysoka, co jest powodem, dla którego nawet model 0.8B obsługuje okno kontekstowe o długości 262 000 tokenów.
Każdy model obsługuje tekst, obrazy i wideo natywnie.
Nie ma adaptera przyczepionego później. Koder wizji używa 3D konwolucji do uchwycenia ruchu w wideo, a następnie łączy cechy z wielu warstw zamiast tylko z ostatniej.
Model 9B pokonuje GPT-5-Nano o 13 punktów w rozumieniu multimodalnym, 17 punktów w matematyce wizualnej i 30 punktów w analizie dokumentów. Model 0.8B działa na telefonie i przetwarza wideo. Model 4B mieści się w 8GB VRAM i działa jako agent multimodalny. Wszystkie cztery są na licencji Apache 2.0.
Jeśli ta architektura się utrzyma, przestrzeń małych modeli właśnie stała się wyścigiem możliwości, a nie wyścigiem rozmiarów.
Rok temu uruchomienie modelu multimodalnego lokalnie oznaczało model 13B+ i poważną kartę graficzną.
Teraz model 4B z kontekstem 262K obsługuje tekst, obrazy i wideo z konsumenckiego sprzętu.
Luka między modelami brzegowymi a modelami flagowymi zamyka się szybciej niż luka między flagowymi a ludźmi.
Najlepsze
Ranking
Ulubione
