Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Accidentalmente construimos sistemas de IA que se automejoran. Este artículo de la Universidad de Oxford lo demuestra.
La mayoría de la gente asume que las mejoras de modelos provienen de arquitecturas más grandes o de canales de aprendizaje por refuerzo cuidadosamente diseñados.
Esta obra muestra algo más sutil y más inquietante.
Si despliegas un modelo, dejas que los usuarios interactúen con él, filtras los fallos y ajustas finamente solo las trazas exitosas, el modelo empieza a mejorar sus capacidades de planificación por sí mismo.
Sin recompensas explícitas, currículo hecho a mano y sin planificador externo.
Solo una iteración.
Los autores llaman a este despliegue iterativo, y lo prueban en entornos de planificación controlada como Blocksworld, Rovers y Sokoban.
La configuración es sencilla:
1. Despliegar un LLM en tareas de planificación
2. Conserva solo los planes que realmente funcionen
3. Afinar finamente la siguiente versión en esas trazas válidas
Repito
Tras solo cinco generaciones, el rendimiento de la planificación más que se duplica en todos los ámbitos. En algunos casos mejora entre 4 y 5 veces. Aún más interesante, las generaciones posteriores descubren planes mucho más largos que el modelo base, mostrando una generalización real fuera de distribución, no solo trucos de formato o cumplimiento rápido.
Aquí tienes la idea clave.
El artículo demuestra que este proceso es matemáticamente equivalente al aprendizaje por refuerzo con una señal binaria de recompensa.
Pero la función de recompensa nunca se escribe.
...

Populares
Ranking
Favoritas
