To jest Quasar Attention, mechanizm stojący za nadchodzącymi modelami Quasar, zaprojektowanym do obsługi długości kontekstu do 5 milionów tokenów. Uwaga od dawna stanowi wąskie gardło w przetwarzaniu rozszerzonego kontekstu. Standardowe mechanizmy uwagi mają trudności z skalowaniem powyżej ~200k tokenów w treningu, co tworzy sufit na to, ile informacji modele mogą wiarygodnie wykorzystać. Jednym z podejść do rozwiązania tego problemu były metody liniowej uwagi, takie jak uwaga delta z bramką (używana w Qwen 3.5) lub uwaga delta Kimi. Te poprawiają efektywność i pozwalają na dłuższe sekwencje, ale wprowadzają kompromisy: niestabilność przy ekstremalnych długościach, degradację jakości, a w praktyce nie są one ściśle liniowe. Quasar Attention przyjmuje inne podejście. Używa sformułowania w czasie ciągłym, wdrożonego jako w pełni macierzowy system, zamiast polegać na przybliżeniach wektorowych. W praktyce poprawia to stabilność, redukuje koszty i utrzymuje wydajność w miarę wydłużania się sekwencji. W wewnętrznych testach obciążeniowych przy 50 milionach tokenów, podejścia oparte na KDA zaczynają tracić stabilność, podczas gdy Quasar Attention pozostaje stabilny. To pozwala na utrzymanie wydajności w miarę wydłużania się sekwencji, zamiast degradacji powyżej ustalonego progu. Na BABILong, model oparty na Quasar, wstępnie wytrenowany na 20B tokenów i dostosowany na 16k sekwencjach, był oceniany w kontekstach od 1 miliona do 10 milionów tokenów, utrzymując spójną wydajność w tym zakresie. W przeciwieństwie do tego, modele używające uwagi delta z bramką wykazują znaczną degradację przy dłuższych długościach, w niektórych przypadkach spadając do ~10% wydajności przy 10 milionach tokenów. (Uwaga: wyniki są orientacyjne; konfiguracje nie są bezpośrednio porównywalne) Na benchmarkach RULER, model Quasar-10B (oparty na Qwen 3.5 z zamrożonymi wagami bazowymi i dodaną Quasar Attention), wstępnie wytrenowany na 200B tokenów, osiągnął 87% przy 1 milionie tokenów, znacząco przewyższając znacznie większe bazy, w tym Qwen3 80B, w tych samych warunkach oceny. Razem wskazuje to na zmianę w tym, gdzie wydajność w długim kontekście jest wygrywana lub przegrywana: nie tylko w rozmiarze modelu, ale w samym mechanizmie uwagi. Quasar Attention reprezentuje krok w kierunku zmiany w modelowaniu długiego kontekstu, ustanawiając nowy standard dla stabilności i wydajności w skali. Dziękujemy @TargonCompute za obliczenia i za bycie naszym dostawcą obliczeń oraz długoterminowym partnerem w treningu nadchodzących modeli Quasar. Oto link do naszej pracy 👇