Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Accidentalmente construimos sistemas de IA que se auto-mejoran. Este artículo de la Universidad de Oxford lo prueba.
La mayoría de las personas asumen que las mejoras del modelo provienen de arquitecturas más grandes o de pipelines de aprendizaje por refuerzo cuidadosamente diseñados.
Este trabajo muestra algo más sutil y más inquietante.
Si despliegas un modelo, permites que los usuarios interactúen con él, filtras los fracasos y ajustas solo las trazas exitosas, el modelo comienza a mejorar sus habilidades de planificación por sí mismo.
Sin recompensas explícitas, currículos elaborados a mano y sin planificador externo.
Solo iteración.
Los autores llaman a esto despliegue iterativo, y lo prueban en entornos de planificación controlados como Blocksworld, Rovers y Sokoban.
La configuración es simple:
1. Desplegar un LLM en tareas de planificación
2. Mantener solo los planes que realmente funcionan
3. Ajustar la siguiente versión en esas trazas válidas
Repetir
Después de solo cinco generaciones, el rendimiento en planificación se duplica en todos los dominios. En algunos casos mejora de 4 a 5 veces. Aún más interesante, las generaciones posteriores descubren planes mucho más largos que el modelo base, mostrando una verdadera generalización fuera de distribución, no solo trucos de formato o cumplimiento de indicaciones.
Aquí está la clave.
El artículo prueba que este proceso es matemáticamente equivalente al aprendizaje por refuerzo con una señal de recompensa binaria.
Pero la función de recompensa nunca se escribe.
...

Parte superior
Clasificación
Favoritos
