Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Putain… cet article du MIT explique discrètement comment les modèles peuvent s'auto-apprendre à raisonner lorsqu'ils sont complètement bloqués 🤯
L'idée centrale est trompeusement simple :
Le raisonnement échoue parce que l'apprentissage n'a rien sur quoi s'accrocher.
Lorsque le taux de réussite d'un modèle tombe près de zéro, l'apprentissage par renforcement cesse de fonctionner. Pas de signal de récompense. Pas de gradient. Pas d'amélioration. Le modèle n'est pas "mauvais en raisonnement" — il est piégé au-delà de la limite d'apprentissage.
Cet article reformule le problème.
Au lieu de demander "Comment faisons-nous pour que le modèle résolve des problèmes plus difficiles ?"
Ils demandent : "Comment un modèle crée-t-il des problèmes dont il peut apprendre ?"
C'est là que SOAR entre en jeu.
SOAR divise un seul modèle pré-entraîné en deux rôles :
• Un étudiant qui tente des problèmes cibles extrêmement difficiles
• Un enseignant qui génère de nouveaux problèmes d'entraînement pour l'étudiant
Mais la contrainte est brutale.
L'enseignant n'est jamais récompensé pour des questions intelligentes, la diversité ou le réalisme.
Il n'est récompensé que si la performance de l'étudiant s'améliore sur un ensemble fixe de problèmes d'évaluation réels.
Pas d'amélioration ? Pas de récompense.
Cela change complètement la dynamique.
...

Meilleurs
Classement
Favoris
