Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acidentalmente construímos sistemas de IA que se auto-aprimoram. Este artigo da Universidade de Oxford prova isso.
A maioria das pessoas assume que melhorias de modelos vêm de arquiteturas maiores ou pipelines de aprendizado por reforço cuidadosamente projetados.
Esta obra mostra algo mais sutil e mais perturbador.
Se você implanta um modelo, permite que os usuários interajam com ele, filtra as falhas e ajusta finamente apenas nos trilhos bem-sucedidos, o modelo começa a melhorar suas capacidades de planejamento por conta própria.
Sem recompensas explícitas, currículo feito à mão e sem planejador externo.
Só uma iteração.
Os autores chamam isso de implantação iterativa, e testam em ambientes de planejamento controlado como Blocksworld, Rovers e Sokoban.
A configuração é simples:
1. Implantar um LLM para tarefas de planejamento
2. Mantenha apenas os planos que realmente funcionam
3. Ajuste fino na próxima versão nesses trilhos válidos
Repita
Após apenas cinco gerações, o desempenho do planejamento mais que dobra em todos os domínios. Em alguns casos, melhora de 4 a 5 vezes. Ainda mais interessante, gerações posteriores descobrem planos muito mais longos do que o modelo base, mostrando uma generalização real fora da distribuição, não apenas truques de formatação ou cumprimento rápido.
Aqui está o ponto principal.
O artigo prova que esse processo é matematicamente equivalente ao aprendizado por reforço com um sinal binário de recompensa.
Mas a função de recompensa nunca é escrita.
...

Melhores
Classificação
Favoritos
