Nous avons accidentellement construit des systèmes d'IA auto-améliorants. Cet article de l'Université d'Oxford le prouve. La plupart des gens supposent que les améliorations des modèles proviennent de plus grandes architectures ou de pipelines d'apprentissage par renforcement soigneusement conçus. Ce travail montre quelque chose de plus subtil et de plus troublant. Si vous déployez un modèle, laissez les utilisateurs interagir avec lui, filtrez les échecs et affinez uniquement sur les traces réussies, le modèle commence à améliorer ses capacités de planification de lui-même. Pas de récompenses explicites, pas de programme élaboré et pas de planificateur externe. Juste de l'itération. Les auteurs appellent cela le déploiement itératif, et ils le testent dans des environnements de planification contrôlés comme Blocksworld, Rovers et Sokoban. La configuration est simple : 1. Déployez un LLM sur des tâches de planification 2. Conservez uniquement les plans qui fonctionnent réellement 3. Affinez la version suivante sur ces traces valides Répétez Après seulement cinq générations, les performances de planification doublent dans tous les domaines. Dans certains cas, elles s'améliorent de 4 à 5 fois. Encore plus intéressant, les générations ultérieures découvrent des plans beaucoup plus longs que le modèle de base, montrant une véritable généralisation hors distribution, pas seulement des astuces de formatage ou de conformité aux invites. Voici l'idée clé. L'article prouve que ce processus est mathématiquement équivalent à l'apprentissage par renforcement avec un signal de récompense binaire. Mais la fonction de récompense n'est jamais écrite. ...