Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Toto je Quasar Attention, mechanismus stojící za nadcházejícími modely Quasar, navržený tak, aby podporoval délky kontextu až do 5 milionů tokenů.
Pozornost byla dlouho úzkým hrdlem při zpracování rozšířeného kontextu. Standardní mechanismy pozornosti mají problém škálovat nad ~200 tisíc tokenů při tréninku, což vytváří strop pro to, kolik informací mohou modely spolehlivě využít.
Jedním z přístupů k řešení tohoto problému jsou metody lineární pozornosti, jako je gated delta attention (používané v Qwen 3.5) nebo Kimiho delta pozornost. Tyto zlepšují efektivitu a umožňují delší sekvence, ale přinášejí kompromisy: nestabilitu při extrémních délkách, zhoršení kvality a v praxi nejsou striktně lineární.
Quasar Attention přistupuje k tomu jinak. Používá formulaci v spojitém čase, implementovanou jako plně maticový systém místo spoléhání na vektorové aproximace. V praxi to zlepšuje stabilitu, snižuje náklady a udržuje výkon při prodlužování délky sekvence.
V interních zátěžových testech na 50 milionech tokenů začínají přístupy založené na KDA ztrácet stabilitu, zatímco Quasar Attention zůstává stabilní. To umožňuje, aby výkon vydržel s rostoucí délkou sekvence, místo aby se zhoršoval nad pevně stanovený prah.
Na BABILongu byl v kontextech od 1 do 10 milionů tokenů vyhodnocován model založený na Quasaru, předtrénovaný na tokenech 20B a doladěn na sekvencích 16k a zároveň konzistentní výkon v tomto rozsahu. Naopak modely využívající gated delta attention vykazují výrazné zhoršení při delších délkách, v některých případech až na ~10 % výkonu při 10 milionech tokenů. (Poznámka: výsledky jsou indikativní; nastavení nejsou přímo srovnatelná)
V benchmarkech RULER model Quasar-10B (postavený na Qwen 3.5 s přidanými zmrazenými základními váhami a Quasar Attention), předtrénovaný na tokenech 200B, dosáhl 87 % při 1 milionu tokenů, což překonalo výrazně vyšší základní hodnoty, včetně Qwen3 80B, za stejných hodnotících podmínek.
Společně to ukazuje na posun v tom, kde se výkon v dlouhodobém kontextu vyhrává nebo ztrácí: ne pouze ve velikosti modelu, ale v samotném mechanismu pozornosti.
Quasar Attention představuje zásadní změnu v dlouhodobém kontextovém modelování a stanovuje nový standard stability a výkonu ve velkém měřítku.
Děkujeme @TargonCompute za výpočetní výkony a za to, že jste naším poskytovatelem výpočetních schopností a dlouhodobým partnerem při tréninku nadcházejících modelů Quasar
Zde je odkaz na náš článek 👇

Top
Hodnocení
Oblíbené
