Puta merda... A Meta pode ter acabado de resolver a IA 🤯 de auto-aperfeiçoamento Seu novo artigo, SPICE (Self-Play in Corpus Environments), basicamente transforma um modelo de linguagem em seu próprio professor: sem humanos, sem rótulos, sem conjuntos de dados, apenas a internet como seu campo de treinamento. Aqui está a reviravolta: uma cópia do modelo se torna um Challenger que vasculha documentos reais para criar problemas de raciocínio rígidos e baseados em fatos. Outra cópia se torna o Reasoner, tentando resolvê-los sem acesso à fonte. Eles competem, aprendem e desenvolvem juntos um currículo automático com base no mundo real para que nunca desmorone em alucinações. Os resultados são loucos: +9,1% em benchmarks de raciocínio com Qwen3-4B +11,9% com OctoThinker-8B e supera todos os métodos anteriores de auto-jogo, como R-Zero e Absolute Zero. Isso inverte o roteiro do autoaperfeiçoamento da IA. Em vez de fazer loops em lixo sintético, o SPICE cresce explorando conhecimento real em um sistema de circuito fechado com inteligência de mundo aberto. Se isso for dimensionado, podemos estar olhando para o modelo de modelos de raciocínio autônomos e autoevolutivos.