Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To jest Quasar Attention, mechanizm stojący za nadchodzącymi modelami Quasar, zaprojektowanym do obsługi długości kontekstu do 5 milionów tokenów.
Uwaga od dawna stanowi wąskie gardło w przetwarzaniu rozszerzonego kontekstu. Standardowe mechanizmy uwagi mają trudności z skalowaniem powyżej ~200k tokenów w treningu, co tworzy sufit na to, ile informacji modele mogą wiarygodnie wykorzystać.
Jednym z podejść do rozwiązania tego problemu były metody liniowej uwagi, takie jak uwaga delta z bramką (używana w Qwen 3.5) lub uwaga delta Kimi. Te poprawiają efektywność i pozwalają na dłuższe sekwencje, ale wprowadzają kompromisy: niestabilność przy ekstremalnych długościach, degradację jakości, a w praktyce nie są one ściśle liniowe.
Quasar Attention przyjmuje inne podejście. Używa sformułowania w czasie ciągłym, wdrożonego jako w pełni macierzowy system, zamiast polegać na przybliżeniach wektorowych. W praktyce poprawia to stabilność, redukuje koszty i utrzymuje wydajność w miarę wydłużania się sekwencji.
W wewnętrznych testach obciążeniowych przy 50 milionach tokenów, podejścia oparte na KDA zaczynają tracić stabilność, podczas gdy Quasar Attention pozostaje stabilny. To pozwala na utrzymanie wydajności w miarę wydłużania się sekwencji, zamiast degradacji powyżej ustalonego progu.
Na BABILong, model oparty na Quasar, wstępnie wytrenowany na 20B tokenów i dostosowany na 16k sekwencjach, był oceniany w kontekstach od 1 miliona do 10 milionów tokenów, utrzymując spójną wydajność w tym zakresie. W przeciwieństwie do tego, modele używające uwagi delta z bramką wykazują znaczną degradację przy dłuższych długościach, w niektórych przypadkach spadając do ~10% wydajności przy 10 milionach tokenów. (Uwaga: wyniki są orientacyjne; konfiguracje nie są bezpośrednio porównywalne)
Na benchmarkach RULER, model Quasar-10B (oparty na Qwen 3.5 z zamrożonymi wagami bazowymi i dodaną Quasar Attention), wstępnie wytrenowany na 200B tokenów, osiągnął 87% przy 1 milionie tokenów, znacząco przewyższając znacznie większe bazy, w tym Qwen3 80B, w tych samych warunkach oceny.
Razem wskazuje to na zmianę w tym, gdzie wydajność w długim kontekście jest wygrywana lub przegrywana: nie tylko w rozmiarze modelu, ale w samym mechanizmie uwagi.
Quasar Attention reprezentuje krok w kierunku zmiany w modelowaniu długiego kontekstu, ustanawiając nowy standard dla stabilności i wydajności w skali.
Dziękujemy @TargonCompute za obliczenia i za bycie naszym dostawcą obliczeń oraz długoterminowym partnerem w treningu nadchodzących modeli Quasar.
Oto link do naszej pracy 👇

Najlepsze
Ranking
Ulubione
