Am construit din greșeală sisteme AI care se auto-îmbunătățesc. Această lucrare de la Universitatea Oxford dovedește acest lucru. Majoritatea oamenilor presupun că îmbunătățirile modelelor provin din arhitecturi mai mari sau din pipeline-uri de învățare prin întărire atent proiectate. Această lucrare arată ceva mai subtil și mai tulburător. Dacă implementezi un model, permiți utilizatorilor să interacționeze cu el, filtrezi eșecurile și ajustezi fin doar pe traseele reușite, modelul începe să-și îmbunătățească propriile capacități de planificare. Fără recompense explicite, curriculum realizat manual și fără planificator extern. Doar o iterație. Autorii numesc această implementare iterativă și o testează în medii de planificare controlată precum Blocksworld, Rovers și Sokoban. Configurația este simplă: 1. Implementarea unui LLM pentru sarcini de planificare 2. Păstrează doar planurile care chiar funcționează 3. Ajustarea fină a următoarei versiuni pe acele urme valide Repetă După doar cinci generații, performanța planificării se dublează în toate domeniile. În unele cazuri se îmbunătățește de 4 până la 5 ori. Și mai interesant, generațiile ulterioare descoperă planuri mult mai lungi decât modelul de bază, arătând o generalizare reală în afara distribuției, nu doar trucuri de formatare sau conformitate promptă. Iată perspectiva cheie. Lucrarea demonstrează că acest proces este matematic echivalent cu învățarea prin întărire cu un semnal binar de recompensă. Dar funcția de recompensă nu este niciodată scrisă. ...