Wow, AI ar putea învăța dintr-un document în timp ce îl citește? Cercetători de la Astera Institute, NVIDIA și alții prezintă o metodă nouă care tratează modelarea pe context lung ca pe o problemă de învățare continuă. Ei folosesc un Transformer standard, dar acesta "studiază" textul în timp real prin predicția next-token-ului, comprimând contextul în propriii săi parametri. Depășește modele precum Mamba 2 și Gated DeltaNet la scalarea pe contexte lungi, fiind de 2,7 ori mai rapid decât atenția completă pentru intrări de 128K. Instruire de la un sfârșit la altul în timpul testului pentru context lung Hârtie: