Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOUVELLE recherche sur l'amélioration de la mémoire pour les agents IA.
(enregistrez-le)
À mesure que les fenêtres contextuelles s'étendent à des millions de tokens, le goulot d'étranglement passe de la capacité brute au contrôle cognitif. Savoir ce que vous savez, savoir ce qui manque et savoir quand s'arrêter compte plus que de traiter chaque token.
Des fenêtres contextuelles plus longues ne garantissent pas un meilleur raisonnement. Cela est en grande partie dû au fait que la façon dont les développeurs gèrent les documents ultra-longs aujourd'hui reste d'élargir la fenêtre contextuelle ou de compresser tout en un seul passage.
Mais lorsque les preuves décisives sont rares et éparpillées sur un million de tokens, les stratégies de mémoire passive rejettent silencieusement les faits de liaison nécessaires au raisonnement multi-saut.
Cette nouvelle recherche introduit InfMem, un agent à mémoire bornée qui applique un contrôle cognitif de style Système-2 à la réponse à des questions sur des documents longs à travers un protocole structuré PRETHINK–RETRIEVE–WRITE.
Au lieu de compresser passivement chaque segment au fur et à mesure qu'il passe, InfMem surveille activement si sa mémoire est suffisante pour répondre à la question. Les preuves actuelles sont-elles suffisantes ? Qu'est-ce qui manque ? Où dans le document devrais-je regarder ?
PRETHINK agit comme un contrôleur cognitif, décidant s'il faut s'arrêter ou récupérer plus de preuves. Lorsque des lacunes de preuves existent, il synthétise une requête de récupération ciblée et récupère des passages pertinents de n'importe où dans le document, y compris des sections antérieures qu'il a déjà passées. WRITE effectue ensuite une compression conjointe, intégrant les preuves récupérées avec le segment actuel dans une mémoire bornée sous un budget fixe.
La recette d'entraînement utilise un échauffement SFT pour enseigner les mécanismes du protocole par distillation à partir de Qwen3-32B, puis l'apprentissage par renforcement aligne les décisions de récupération, d'écriture et d'arrêt avec la justesse de la tâche finale en utilisant des récompenses basées sur les résultats et un façonnage d'arrêt précoce.
Sur des benchmarks QA ultra-longs de 32k à 1M tokens, InfMem surpasse MemAgent de +10,17, +11,84 et +8,23 points de précision absolue moyenne sur Qwen3-1.7B, Qwen3-4B et Qwen2.5-7B, respectivement.
Un agent InfMem de 4B paramètres maintient une précision constante jusqu'à 1M tokens, où des références standard comme YaRN s'effondrent à des performances à un chiffre. La latence d'inférence diminue en moyenne de 3,9x (jusqu'à 5,1x) grâce à un arrêt précoce adaptatif.
Ces gains se transfèrent également à LongBench QA, où InfMem+RL atteint jusqu'à +31,38 d'amélioration absolue sur des tâches individuelles par rapport à la référence YaRN.
Article :
Apprenez à construire des agents IA efficaces dans notre académie :

Meilleurs
Classement
Favoris
