Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelo de Raciocínio Universal
Transformadores Universais superam os Transformadores padrão em tarefas de raciocínio.
Mas por quê?
Trabalhos anteriores atribuíram os ganhos a inovações arquitetônicas elaboradas, como designs hierárquicos e mecanismos de gating complexos.
Mas esses pesquisadores encontraram uma explicação mais simples.
Esta nova pesquisa demonstra que os ganhos de desempenho no ARC-AGI vêm principalmente de dois fatores muitas vezes negligenciados: viés indutivo recorrente e forte não linearidade.
Aplicar uma única transformação repetidamente funciona muito melhor do que empilhar camadas distintas para tarefas de raciocínio.
Com apenas 4x parâmetros, um Transformador Universal alcança 40% pass@1 no ARC-AGI 1. Transformadores Vanilla com 32x parâmetros marcam apenas 23,75%. Simplesmente aumentar a profundidade ou largura em Transformadores padrão gera retornos decrescentes e pode até degradar o desempenho.
Eles introduzem o Modelo de Raciocínio Universal (URM), que melhora isso com duas técnicas. Primeiro, o ConvSwiGLU adiciona uma convolução curta em profundidade após a expansão MLP, injetando mistura local de tokens no caminho não linear. Em segundo lugar, a Retropropagação Truncada Através de Laços ignora o cálculo do gradiente para iterações recorrentes iniciais, estabilizando a otimização.
Resultados: 53,8% pass@1 no ARC-AGI 1, subindo de 40% (TRM) e 34,4% (HRM). No ARC-AGI 2, o URM atinge 16% pass@1, quase triplicando o HRM e mais do que dobrando o TRM. A precisão do Sudoku atinge 77,6%.
Ablations:
- Remover a convolução curta reduz o pass@1 de 53,8% para 45,3%. Remover a retropropagação truncada reduz para 40%.
- Substituir SwiGLU por ativações mais simples como ReLU derruba o desempenho para 28,6%.
- Remover completamente o softmax de atenção colapsa a precisão para 2%.
A estrutura recorrente converte computação em profundidade efetiva. Transformadores padrão gastam FLOPs em refinamento redundante em camadas superiores. A computação recorrente concentra o mesmo orçamento em raciocínio iterativo.
Raciocínios complexos se beneficiam mais da computação iterativa do que da escala. Modelos pequenos com estrutura recorrente superam grandes modelos estáticos em tarefas que requerem abstração em múltiplos passos.

Top
Classificação
Favoritos
