Uau, a IA pode aprender a partir de um documento enquanto o lê? Pesquisadores do Astera Institute, NVIDIA e outros apresentam um novo método que trata a modelagem de longo contexto como um problema de aprendizagem contínua. Eles usam um Transformer padrão, mas ele "estuda" o texto em tempo real através da previsão do próximo token, comprimindo o contexto em seus próprios parâmetros. Ele supera modelos como Mamba 2 e Gated DeltaNet em escalabilidade para longos contextos, enquanto é 2,7x mais rápido do que a atenção total para entradas de 128K. Treinamento de Teste de Fim a Fim para Longo Contexto Artigo: