Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abbiamo accidentalmente costruito sistemi di intelligenza artificiale auto-miglioranti. Questo documento dell'Università di Oxford lo dimostra.
La maggior parte delle persone presume che i miglioramenti dei modelli derivino da architetture più grandi o da pipeline di apprendimento per rinforzo progettate con attenzione.
Questo lavoro mostra qualcosa di più sottile e inquietante.
Se distribuisci un modello, permetti agli utenti di interagire con esso, filtri i fallimenti e affini solo le tracce di successo, il modello inizia a migliorare le sue capacità di pianificazione da solo.
Nessuna ricompensa esplicita, curriculum fatto a mano e nessun pianificatore esterno.
Solo iterazione.
Gli autori chiamano questo dispiegamento iterativo e lo testano in ambienti di pianificazione controllati come Blocksworld, Rovers e Sokoban.
Il setup è semplice:
1. Distribuisci un LLM su compiti di pianificazione
2. Tieni solo i piani che funzionano realmente
3. Affina la versione successiva su quelle tracce valide
Ripeti
Dopo solo cinque generazioni, le prestazioni di pianificazione più che raddoppiano in tutti i domini. In alcuni casi migliora di 4-5 volte. Ancora più interessante, le generazioni successive scoprono piani molto più lunghi rispetto al modello base, mostrando una vera generalizzazione fuori distribuzione, non solo trucchi di formattazione o conformità ai prompt.
Ecco l'intuizione chiave.
Il documento dimostra che questo processo è matematicamente equivalente all'apprendimento per rinforzo con un segnale di ricompensa binario.
Ma la funzione di ricompensa non è mai scritta.
...

Principali
Ranking
Preferiti
