Wow, AI by se mohla učit z dokumentu během čtení? Výzkumníci z Astera Institute, NVIDIA a dalších představují novou metodu, která považuje modelování v dlouhém kontextu za problém neustálého učení. Používají standardní Transformer, ale ten "studuje" text v reálném čase pomocí predikce dalšího tokenu, komprimuje kontext do vlastních parametrů. Překonává modely jako Mamba 2 a Gated DeltaNet v škálování na dlouhé kontexty, přičemž je 2,7x rychlejší než Full Attention pro 128K vstupů. Komplexní trénink při testování pro dlouhý kontext Článek: