Wow, l'AI potrebbe apprendere da un documento mentre lo legge? I ricercatori dell'Astera Institute, NVIDIA e altri presentano un nuovo metodo che tratta la modellazione a lungo contesto come un problema di apprendimento continuo. Utilizzano un Transformer standard, ma "studia" il testo in tempo reale tramite la previsione del prossimo token, comprimendo il contesto nei propri parametri. Supera modelli come Mamba 2 e Gated DeltaNet nella scalabilità a contesti lunghi, risultando 2,7 volte più veloce rispetto all'attenzione completa per input di 128K. Addestramento End-to-End Test-Time per Lungo Contesto Documento: