Modelo de Raciocínio Universal Transformadores universais esmagam os transformadores padrão em tarefas de raciocínio. Mas por quê? Trabalhos anteriores atribuíram os ganhos a inovações arquitetônicas elaboradas, como projetos hierárquicos e mecanismos complexos de portões. Mas esses pesquisadores encontraram uma explicação mais simples. Esta nova pesquisa demonstra que os ganhos de desempenho no ARC-AGI vêm principalmente de dois fatores frequentemente negligenciados: viés indutivo recorrente e forte não linearidade. Aplicar uma única transformação repetidamente funciona muito melhor do que empilhar camadas distintas para tarefas de raciocínio. Com apenas 4x parâmetros, um Transformador Universal alcança 40% pass@1 no ARC-AGI 1. Transformers vanilla com parâmetros 32x pontuam apenas 23,75%. Simplesmente escalar a profundidade ou largura em Transformers padrão gera retornos decrescentes e pode até degradar o desempenho. Eles introduzem o Modelo de Raciocínio Universal (URM), que aprimora isso com duas técnicas. Primeiro, o ConvSwiGLU adiciona uma convolução curta em profundidade após a expansão MLP, injetando mistura local de tokens no caminho não linear. Segundo, a Retropropagação Truncada através de Laços pula o cálculo de gradiente para iterações recorrentes iniciais, estabilizando a otimização. Resultados: 53,8% pass@1 no ARC-AGI 1, acima de 40% (TRM) e 34,4% (HRM). No ARC-AGI 2, a URM atinge 16% pass@1, quase triplicando a HRM e mais que dobrando a TRM. A precisão do Sudoku atinge 77,6%. Ablações: - Remoção das quedas por convolução curta pass@1 de 53,8% para 45,3%. Remover a retropropagação truncada a reduz para 40%. - Substituir o SwiGLU por ativações mais simples, como o desempenho dos tanques ReLU para 28,6%. - Remover a atenção softmax colapsa completamente a precisão para 2%. A estrutura recorrente converte o cálculo em profundidade efetiva. Transformadores padrão gastam FLOPs em refinamento redundante em camadas superiores. A computação recorrente concentra o mesmo orçamento no raciocínio iterativo. O raciocínio complexo se beneficia mais da computação iterativa do que da escala. Modelos pequenos com estrutura recorrente superam grandes modelos estáticos em tarefas que exigem abstração em múltiplas etapas.