DApp Store | Centrum Web3 pro události a hry

Populární témata

Toto je Quasar Attention, mechanismus stojící za nadcházejícími modely Quasar, navržený tak, aby podporoval délky kontextu až do 5 milionů tokenů. Pozornost byla dlouho úzkým hrdlem při zpracování rozšířeného kontextu. Standardní mechanismy pozornosti mají problém škálovat nad ~200 tisíc tokenů při tréninku, což vytváří strop pro to, kolik informací mohou modely spolehlivě využít. Jedním z přístupů k řešení tohoto problému jsou metody lineární pozornosti, jako je gated delta attention (používané v Qwen 3.5) nebo Kimiho delta pozornost. Tyto zlepšují efektivitu a umožňují delší sekvence, ale přinášejí kompromisy: nestabilitu při extrémních délkách, zhoršení kvality a v praxi nejsou striktně lineární. Quasar Attention přistupuje k tomu jinak. Používá formulaci v spojitém čase, implementovanou jako plně maticový systém místo spoléhání na vektorové aproximace. V praxi to zlepšuje stabilitu, snižuje náklady a udržuje výkon při prodlužování délky sekvence. V interních zátěžových testech na 50 milionech tokenů začínají přístupy založené na KDA ztrácet stabilitu, zatímco Quasar Attention zůstává stabilní. To umožňuje, aby výkon vydržel s rostoucí délkou sekvence, místo aby se zhoršoval nad pevně stanovený prah. Na BABILongu byl v kontextech od 1 do 10 milionů tokenů vyhodnocován model založený na Quasaru, předtrénovaný na tokenech 20B a doladěn na sekvencích 16k a zároveň konzistentní výkon v tomto rozsahu. Naopak modely využívající gated delta attention vykazují výrazné zhoršení při delších délkách, v některých případech až na ~10 % výkonu při 10 milionech tokenů. (Poznámka: výsledky jsou indikativní; nastavení nejsou přímo srovnatelná) V benchmarkech RULER model Quasar-10B (postavený na Qwen 3.5 s přidanými zmrazenými základními váhami a Quasar Attention), předtrénovaný na tokenech 200B, dosáhl 87 % při 1 milionu tokenů, což překonalo výrazně vyšší základní hodnoty, včetně Qwen3 80B, za stejných hodnotících podmínek. Společně to ukazuje na posun v tom, kde se výkon v dlouhodobém kontextu vyhrává nebo ztrácí: ne pouze ve velikosti modelu, ale v samotném mechanismu pozornosti. Quasar Attention představuje zásadní změnu v dlouhodobém kontextovém modelování a stanovuje nový standard stability a výkonu ve velkém měřítku. Děkujeme @TargonCompute za výpočetní výkony a za to, že jste naším poskytovatelem výpočetních schopností a dlouhodobým partnerem při tréninku nadcházejících modelů Quasar Zde je odkaz na náš článek 👇

Top

Hodnocení

Oblíbené