Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voici le Digest de Recherche Rituel de cette semaine, une newsletter couvrant les dernières nouvelles dans le monde des LLM et l'intersection entre Crypto et AI.
Avec des centaines d'articles publiés chaque semaine, il est impossible de rester à jour avec les dernières informations. Nous faisons la lecture pour que vous n'ayez pas à le faire.

Critique-RL : Entraînement de modèles de langage pour la critique à travers un apprentissage par renforcement en deux étapes
Cet article vise à développer des modèles de langage critiques qui ne dépendent pas d'une supervision plus forte ou d'une fonction de récompense oracle pendant les tests.

Ils proposent Critique-RL, une approche RL en 2 étapes, une approche RL en ligne basée sur l'interaction acteur-critique pour développer des modèles de critique.
Des expériences approfondies montrent que la méthode surpasse les références, offrant de meilleures performances avec Qwen 2.5 7B.

PACR : Récompense de Confiance Ascendante Progressive pour le Raisonnement LLM
Ce travail se demande si une supervision par étapes peut être obtenue à partir du modèle. Ils introduisent PACR, un signal dense et intrinsèque au modèle qui convertit la croissance de la confiance en supervision par étapes pour l'apprentissage par renforcement.



Ils constatent, entre autres, qu'une montée de confiance cohérente est fortement corrélée à la justesse de la réponse finale.
À travers plusieurs benchmarks de raisonnement, l'augmentation de RLVR avec des méthodes PACR améliore la dynamique d'entraînement et la performance finale.

La fin du décodage manuel : Vers des modèles de langage véritablement de bout en bout
Cet article propose AutoDeco, une architecture qui crée un modèle de langage "de bout en bout" capable de contrôler son propre processus de décodage. Ils augmentent le transformateur avec des têtes de prédiction.

Les têtes AutoDeco utilisent l'état caché actuel du modèle pour prédire dynamiquement les paramètres d'échantillonnage optimaux pour le prochain token.
Elles publient des têtes AutoDeco pour Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 et GPT-OSS-120 et valident avec plusieurs autres modèles.


Élargir le raisonnement latent via des modèles de langage en boucle
Cet article vise à explorer le comportement d'échelle de LoopLM dans divers aspects. Ils développent des objectifs novateurs pour entraîner un calcul récurrent efficace tout en maintenant des performances optimales.

Ils entraînent deux modèles, des LoopLMs de 1,4 milliard et 2,6 milliards de paramètres sur 7,7 trillions de tokens qui égalent les performances des transformateurs standards de 4 milliards et 8 milliards de paramètres sur presque tous les benchmarks, réalisant des améliorations de l'efficacité des paramètres de 2 à 3 fois.
Ils explorent également les raisons pour lesquelles les transformateurs en boucle sont meilleurs.

Le Tool Decathlon : Évaluation des agents linguistiques pour l'exécution de tâches diverses, réalistes et à long terme
Introduit un benchmark pour évaluer les agents linguistiques. TOOLATHLON est basé sur des scénarios réalistes nécessitant plusieurs applications.

TOOLATHLON nécessite, en moyenne, 4 à 6 heures de travail par un étudiant diplômé en recherche spécialisé en informatique.
Sonnet 4.5, GPT-5 et Grok4 fonctionnent bien. Ils observent des différences significatives entre les taux de réussite Pass@3 et Passˆ3, indiquant une couverture des capacités mais des problèmes de cohérence.

Suivez-nous @ritualdigest pour en savoir plus sur tout ce qui concerne la crypto et la recherche en IA, et @ritualnet pour en apprendre davantage sur ce que Ritual est en train de construire.
3,91K
Meilleurs
Classement
Favoris

