Quasar Attention è il meccanismo alla base dei prossimi modelli Quasar, progettato per supportare lunghezze di contesto fino a 5 milioni di token. L'attenzione è stata a lungo un collo di bottiglia per l'elaborazione di contesti estesi. I meccanismi di attenzione standard faticano a scalare oltre ~200k token in fase di addestramento, creando un limite su quante informazioni i modelli possano utilizzare in modo affidabile. Un approccio per risolvere questo problema sono stati i metodi di attenzione lineare, come l'attenzione delta gated (utilizzata in Qwen 3.5) o l'attenzione delta Kimi. Questi migliorano l'efficienza e consentono sequenze più lunghe, ma introducono compromessi: instabilità a lunghezze estreme, degrado della qualità e, in pratica, non sono strettamente lineari. Quasar Attention adotta un approccio diverso. Utilizza una formulazione in tempo continuo, implementata come un sistema completamente basato su matrici piuttosto che fare affidamento su approssimazioni a stato vettoriale. In pratica, questo migliora la stabilità, riduce i costi e mantiene le prestazioni man mano che aumenta la lunghezza della sequenza. Nei test di stress interni a 50 milioni di token, gli approcci basati su KDA iniziano a perdere stabilità, mentre Quasar Attention rimane stabile. Questo consente di mantenere le prestazioni man mano che aumenta la lunghezza della sequenza, piuttosto che degradare oltre una soglia fissa. Su BABILong, un modello basato su Quasar pre-addestrato su 20B token e ottimizzato su sequenze di 16k è stato valutato su contesti che vanno da 1 milione a 10 milioni di token, mantenendo prestazioni costanti in quel range. Al contrario, i modelli che utilizzano l'attenzione delta gated mostrano un degrado significativo a lunghezze maggiori, in alcuni casi scendendo a ~10% di prestazioni a 10 milioni di token. (Nota: i risultati sono indicativi; le configurazioni non sono direttamente comparabili) Sui benchmark RULER, un modello Quasar-10B (costruito su Qwen 3.5 con pesi di base congelati e Quasar Attention aggiunto), pre-addestrato su 200B token, ha raggiunto l'87% a 1 milione di token, superando significativamente basi di riferimento molto più grandi, inclusi Qwen3 80B, nelle stesse condizioni di valutazione. Nel complesso, questo indica un cambiamento in cui le prestazioni a lungo termine vengono vinte o perse: non solo nella dimensione del modello, ma nel meccanismo di attenzione stesso. Quasar Attention rappresenta un cambiamento significativo nella modellazione a lungo termine, stabilendo un nuovo standard per stabilità e prestazioni su larga scala. Ringraziamo @TargonCompute per il calcolo e per essere il nostro fornitore di calcolo e partner a lungo termine nell'addestramento dei prossimi modelli Quasar. Ecco il link al nostro documento 👇