We hebben per ongeluk zelfverbeterende AI-systemen gebouwd. Dit paper van de Universiteit van Oxford bewijst het. De meeste mensen gaan ervan uit dat modelverbeteringen voortkomen uit grotere architecturen of zorgvuldig ontworpen versterkingsleer-pijplijnen. Dit werk toont iets subtielers en verontrustenders aan. Als je een model inzet, gebruikers ermee laat interageren, de mislukkingen filtert en alleen op de succesvolle sporen fijnstemt, begint het model zijn planningsvaardigheden op eigen kracht te verbeteren. Geen expliciete beloningen, handgemaakte curricula en geen externe planner. Gewoon iteratie. De auteurs noemen dit iteratieve inzet, en ze testen het in gecontroleerde planningsomgevingen zoals Blocksworld, Rovers en Sokoban. De opzet is eenvoudig: 1. Zet een LLM in voor planningsopdrachten 2. Houd alleen de plannen die daadwerkelijk werken 3. Fijnstem de volgende versie op die geldige sporen Herhaal Na slechts vijf generaties verdubbelt de planningsprestaties meer dan in alle domeinen. In sommige gevallen verbetert het met 4 tot 5x. Nog interessanter is dat latere generaties veel langere plannen ontdekken dan het basismodel, wat echte generalisatie buiten de distributie aantoont, niet alleen opmaaktrucs of prompt-naleving. Hier is de belangrijkste inzicht. Het paper bewijst dat dit proces wiskundig gelijkwaardig is aan versterkingsleren met een binaire beloningssignaal. Maar de beloningsfunctie is nooit opgeschreven. ...