Wow, AI może uczyć się z dokumentu podczas jego czytania? Badacze z Astera Institute, NVIDIA i innych przedstawiają nową metodę, która traktuje modelowanie długiego kontekstu jako problem ciągłego uczenia się. Używają standardowego Transformera, ale "uczy się" tekstu w czasie rzeczywistym poprzez przewidywanie następnego tokena, kompresując kontekst w swoje własne parametry. Przewyższa modele takie jak Mamba 2 i Gated DeltaNet w skalowaniu do długich kontekstów, będąc jednocześnie 2,7 razy szybszym niż pełna uwaga dla 128K wejść. Szkolenie w czasie testu end-to-end dla długiego kontekstu Artykuł: