Acidentalmente construímos sistemas de IA que se auto-aprimoram. Este artigo da Universidade de Oxford prova isso. A maioria das pessoas assume que melhorias de modelos vêm de arquiteturas maiores ou pipelines de aprendizado por reforço cuidadosamente projetados. Esta obra mostra algo mais sutil e mais perturbador. Se você implanta um modelo, permite que os usuários interajam com ele, filtra as falhas e ajusta finamente apenas nos trilhos bem-sucedidos, o modelo começa a melhorar suas capacidades de planejamento por conta própria. Sem recompensas explícitas, currículo feito à mão e sem planejador externo. Só uma iteração. Os autores chamam isso de implantação iterativa, e testam em ambientes de planejamento controlado como Blocksworld, Rovers e Sokoban. A configuração é simples: 1. Implantar um LLM para tarefas de planejamento 2. Mantenha apenas os planos que realmente funcionam 3. Ajuste fino na próxima versão nesses trilhos válidos Repita Após apenas cinco gerações, o desempenho do planejamento mais que dobra em todos os domínios. Em alguns casos, melhora de 4 a 5 vezes. Ainda mais interessante, gerações posteriores descobrem planos muito mais longos do que o modelo base, mostrando uma generalização real fora da distribuição, não apenas truques de formatação ou cumprimento rápido. Aqui está o ponto principal. O artigo prova que esse processo é matematicamente equivalente ao aprendizado por reforço com um sinal binário de recompensa. Mas a função de recompensa nunca é escrita. ...