DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Modelo de Raciocínio Universal Transformadores universais esmagam os transformadores padrão em tarefas de raciocínio. Mas por quê? Trabalhos anteriores atribuíram os ganhos a inovações arquitetônicas elaboradas, como projetos hierárquicos e mecanismos complexos de portões. Mas esses pesquisadores encontraram uma explicação mais simples. Esta nova pesquisa demonstra que os ganhos de desempenho no ARC-AGI vêm principalmente de dois fatores frequentemente negligenciados: viés indutivo recorrente e forte não linearidade. Aplicar uma única transformação repetidamente funciona muito melhor do que empilhar camadas distintas para tarefas de raciocínio. Com apenas 4x parâmetros, um Transformador Universal alcança 40% pass@1 no ARC-AGI 1. Transformers vanilla com parâmetros 32x pontuam apenas 23,75%. Simplesmente escalar a profundidade ou largura em Transformers padrão gera retornos decrescentes e pode até degradar o desempenho. Eles introduzem o Modelo de Raciocínio Universal (URM), que aprimora isso com duas técnicas. Primeiro, o ConvSwiGLU adiciona uma convolução curta em profundidade após a expansão MLP, injetando mistura local de tokens no caminho não linear. Segundo, a Retropropagação Truncada através de Laços pula o cálculo de gradiente para iterações recorrentes iniciais, estabilizando a otimização. Resultados: 53,8% pass@1 no ARC-AGI 1, acima de 40% (TRM) e 34,4% (HRM). No ARC-AGI 2, a URM atinge 16% pass@1, quase triplicando a HRM e mais que dobrando a TRM. A precisão do Sudoku atinge 77,6%. Ablações: - Remoção das quedas por convolução curta pass@1 de 53,8% para 45,3%. Remover a retropropagação truncada a reduz para 40%. - Substituir o SwiGLU por ativações mais simples, como o desempenho dos tanques ReLU para 28,6%. - Remover a atenção softmax colapsa completamente a precisão para 2%. A estrutura recorrente converte o cálculo em profundidade efetiva. Transformadores padrão gastam FLOPs em refinamento redundante em camadas superiores. A computação recorrente concentra o mesmo orçamento no raciocínio iterativo. O raciocínio complexo se beneficia mais da computação iterativa do que da escala. Modelos pequenos com estrutura recorrente superam grandes modelos estáticos em tarefas que exigem abstração em múltiplas etapas.

Melhores

Classificação

Favoritos