NOVA pesquisa sobre melhoria da memória para agentes de IA. (marca nos favoritos) À medida que as janelas de contexto aumentam para milhões de tokens, o gargalo muda da capacidade bruta para o controle cognitivo. Saber o que você sabe, saber o que está faltando e saber quando parar importa mais do que processar cada token. Janelas de contexto mais longas não garantem um raciocínio melhor. Isso se deve principalmente ao fato de que a forma como os desenvolvedores lidam com documentos ultra-longos hoje continua expandindo a janela de contexto ou comprimindo tudo em uma única passagem. Mas quando as evidências decisivas são escassas e espalhadas por um milhão de tokens, as estratégias de memória passiva descartam silenciosamente os fatos de ponte necessários para o raciocínio multi-hop. Esta nova pesquisa introduz o InfMem, um agente de memória limitada que aplica controle cognitivo no estilo System-2 à resposta a perguntas de documentos longos por meio de um protocolo estruturado PRÉ-PENSAR–RECUPERAR–ESCREVER. Em vez de comprimir passivamente cada segmento enquanto ele flui, o InfMem monitora ativamente se sua memória é suficiente para responder à pergunta. As evidências atuais são suficientes? O que falta? Onde no documento devo procurar? O PRETHINK atua como um controlador cognitivo, decidindo se para ou recupera mais evidências. Quando existem lacunas de evidência, ele sintetiza uma consulta de recuperação direcionada e busca passagens relevantes de qualquer lugar do documento, incluindo seções anteriores que já passou. O WRITE então realiza compressão conjunta, integrando as evidências recuperadas com o segmento atual em uma memória limitada sob um orçamento fixo. A receita de treinamento usa um aquecimento de SFT para ensinar mecânicas de protocolo por meio da destilação de Qwen3-32B, então o aprendizado por reforço alinha a recuperação, escrita e paragem de decisões com a correção da tarefa final, usando recompensas baseadas em resultados e modelagem antecipada. Em benchmarks de QA ultra-longos, de 32k a 1M tokens, o InfMem supera o MemAgent em +10,17, +11,84 e +8,23 pontos de precisão absoluta média em Qwen3-1,7B, Qwen3-4B e Qwen2,5-7B, respectivamente. Um agente InfMem com parâmetro 4B mantém precisão consistente até 1M de tokens, onde bases padrão como o YaRN colapsam para desempenho de um dígito. A latência de inferência cai em média 3,9x (até 5,1x) por paradas adaptativas precoces. Esses ganhos também se transferem para o QA LongBench, onde o InfMem+RL alcança até +31,38 de melhoria absoluta em tarefas individuais em relação à linha de base do YaRN. Papel: Aprenda a construir agentes de IA eficazes em nossa academia: