Abbiamo accidentalmente costruito sistemi di intelligenza artificiale auto-miglioranti. Questo documento dell'Università di Oxford lo dimostra. La maggior parte delle persone presume che i miglioramenti dei modelli derivino da architetture più grandi o da pipeline di apprendimento per rinforzo progettate con attenzione. Questo lavoro mostra qualcosa di più sottile e inquietante. Se distribuisci un modello, permetti agli utenti di interagire con esso, filtri i fallimenti e affini solo le tracce di successo, il modello inizia a migliorare le sue capacità di pianificazione da solo. Nessuna ricompensa esplicita, curriculum fatto a mano e nessun pianificatore esterno. Solo iterazione. Gli autori chiamano questo dispiegamento iterativo e lo testano in ambienti di pianificazione controllati come Blocksworld, Rovers e Sokoban. Il setup è semplice: 1. Distribuisci un LLM su compiti di pianificazione 2. Tieni solo i piani che funzionano realmente 3. Affina la versione successiva su quelle tracce valide Ripeti Dopo solo cinque generazioni, le prestazioni di pianificazione più che raddoppiano in tutti i domini. In alcuni casi migliora di 4-5 volte. Ancora più interessante, le generazioni successive scoprono piani molto più lunghi rispetto al modello base, mostrando una vera generalizzazione fuori distribuzione, non solo trucchi di formattazione o conformità ai prompt. Ecco l'intuizione chiave. Il documento dimostra che questo processo è matematicamente equivalente all'apprendimento per rinforzo con un segnale di ricompensa binario. Ma la funzione di ricompensa non è mai scritta. ...