DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Alibaba ha spedito quattro modelli piccoli Qwen 3.5 con un trucco preso in prestito dal loro modello da 397B: attenzione ibrida Gated DeltaNet. Tre strati di attenzione lineare per ogni strato di attenzione completa. Gli strati lineari gestiscono il calcolo di routine con un uso di memoria costante. Gli strati di attenzione completa si attivano solo quando la precisione è importante. Questo rapporto 3:1 mantiene la memoria piatta mentre la qualità rimane alta, motivo per cui anche il modello da 0.8B supporta una finestra di contesto di 262.000 token. Ogni modello gestisce testo, immagini e video in modo nativo. Nessun adattatore aggiunto successivamente. L'encoder visivo utilizza convoluzioni 3D per catturare il movimento nei video, quindi unisce le caratteristiche di più strati invece di solo quello finale. Il 9B supera GPT-5-Nano di 13 punti nella comprensione multimodale, 17 punti nella matematica visiva e 30 punti nell'analisi dei documenti. Il 0.8B funziona su un telefono e elabora video. Il 4B si adatta in 8GB di VRAM e agisce come un agente multimodale. Tutti e quattro sono Apache 2.0. Se questa architettura regge, lo spazio dei modelli piccoli è appena diventato una corsa alle capacità invece di una corsa alle dimensioni. Un anno fa, eseguire un modello multimodale localmente significava un modello da 13B+ e una GPU seria. Ora un modello da 4B con 262K di contesto gestisce testo, immagini e video da hardware consumer. Il divario tra i modelli edge e i modelli di punta si sta chiudendo più velocemente del divario tra i modelli di punta e gli esseri umani.

Principali

Ranking

Preferiti