Modelo de Razonamiento Universal Los Transformadores Universales superan a los Transformadores estándar en tareas de razonamiento. ¿Pero por qué? Trabajos anteriores atribuyeron las mejoras a innovaciones arquitectónicas elaboradas como diseños jerárquicos y mecanismos de compuerta complejos. Pero estos investigadores encontraron una explicación más simple. Esta nueva investigación demuestra que las mejoras en el rendimiento en ARC-AGI provienen principalmente de dos factores a menudo pasados por alto: sesgo inductivo recurrente y fuerte no linealidad. Aplicar una única transformación repetidamente funciona mucho mejor que apilar capas distintas para tareas de razonamiento. Con solo 4x parámetros, un Transformador Universal logra un 40% de pass@1 en ARC-AGI 1. Los Transformadores Vanilla con 32x parámetros obtienen solo un 23.75%. Simplemente escalar la profundidad o el ancho en los Transformadores estándar produce rendimientos decrecientes e incluso puede degradar el rendimiento. Introducen el Modelo de Razonamiento Universal (URM), que mejora esto con dos técnicas. Primero, ConvSwiGLU añade una convolución corta por profundidad después de la expansión MLP, inyectando mezcla local de tokens en la vía no lineal. Segundo, la Retropropagación Truncada a Través de Bucles omite el cálculo del gradiente para las primeras iteraciones recurrentes, estabilizando la optimización. Resultados: 53.8% de pass@1 en ARC-AGI 1, subiendo del 40% (TRM) y 34.4% (HRM). En ARC-AGI 2, URM alcanza un 16% de pass@1, casi triplicando HRM y más del doble de TRM. La precisión en Sudoku alcanza el 77.6%. Ablaciones: - Eliminar la convolución corta reduce el pass@1 del 53.8% al 45.3%. Eliminar la retropropagación truncada lo reduce al 40%. - Reemplazar SwiGLU con activaciones más simples como ReLU hunde el rendimiento al 28.6%. - Eliminar completamente el softmax de atención colapsa la precisión al 2%. La estructura recurrente convierte el cómputo en profundidad efectiva. Los Transformadores estándar gastan FLOPs en refinamientos redundantes en capas superiores. El cómputo recurrente concentra el mismo presupuesto en razonamiento iterativo. El razonamiento complejo se beneficia más del cómputo iterativo que de la escala. Los modelos pequeños con estructura recurrente superan a los grandes modelos estáticos en tareas que requieren abstracción de múltiples pasos.