Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOVA pesquisa sobre a melhoria da memória para Agentes de IA.
(adicione aos favoritos)
À medida que as janelas de contexto escalam para milhões de tokens, o gargalo muda de capacidade bruta para controle cognitivo. Saber o que você sabe, saber o que está faltando e saber quando parar importa mais do que processar cada token.
Janelas de contexto mais longas não garantem um raciocínio melhor. Isso se deve em grande parte ao fato de que a forma como os desenvolvedores lidam com documentos ultra-longos hoje em dia continua a ser expandir a janela de contexto ou comprimir tudo em uma única passagem.
Mas quando as evidências decisivas são escassas e dispersas por um milhão de tokens, estratégias de memória passivas silenciosamente descartam os fatos de ligação necessários para o raciocínio de múltiplos saltos.
Esta nova pesquisa introduz o InfMem, um agente de memória limitada que aplica controle cognitivo no estilo do Sistema-2 para responder a perguntas sobre documentos longos através de um protocolo estruturado de PRETHINK–RETRIEVE–WRITE.
Em vez de comprimir passivamente cada segmento à medida que flui, o InfMem monitora ativamente se sua memória é suficiente para responder à pergunta. As evidências atuais são suficientes? O que está faltando? Onde no documento devo olhar?
PRETHINK atua como um controlador cognitivo, decidindo se deve parar ou recuperar mais evidências. Quando existem lacunas de evidência, ele sintetiza uma consulta de recuperação direcionada e busca passagens relevantes de qualquer parte do documento, incluindo seções anteriores que já foram lidas. WRITE então realiza uma compressão conjunta, integrando as evidências recuperadas com o segmento atual em uma memória limitada sob um orçamento fixo.
A receita de treinamento usa um aquecimento SFT para ensinar a mecânica do protocolo através da destilação do Qwen3-32B, depois o aprendizado por reforço alinha a recuperação, a escrita e as decisões de parada com a correção da tarefa final usando recompensas baseadas em resultados e modelagem de parada antecipada.
Em benchmarks de QA ultra-longos de 32k a 1M tokens, o InfMem supera o MemAgent em +10.17, +11.84 e +8.23 pontos de precisão absoluta média no Qwen3-1.7B, Qwen3-4B e Qwen2.5-7B, respectivamente.
Um agente InfMem de 4B parâmetros mantém precisão consistente até 1M tokens, onde linhas de base padrão como YaRN colapsam para desempenho de dígitos únicos. A latência de inferência cai em 3.9x em média (até 5.1x) através de parada antecipada adaptativa.
Esses ganhos também se transferem para LongBench QA, onde InfMem+RL alcança até +31.38 de melhoria absoluta em tarefas individuais em relação à linha de base YaRN.
Artigo:
Aprenda a construir agentes de IA eficazes em nossa academia:

Top
Classificação
Favoritos
