Model Penalaran Universal Universal Transformers menghancurkan Transformer standar pada tugas penalaran. Tapi mengapa? Pekerjaan sebelumnya mengaitkan keuntungan dengan inovasi arsitektur yang rumit seperti desain hierarkis dan mekanisme gerbang yang kompleks. Tetapi para peneliti ini menemukan penjelasan yang lebih sederhana. Penelitian baru ini menunjukkan bahwa peningkatan kinerja pada ARC-AGI terutama berasal dari dua faktor yang sering diabaikan: bias induktif berulang dan nonlinier yang kuat. Menerapkan satu transformasi berulang kali bekerja jauh lebih baik daripada menumpuk lapisan yang berbeda untuk tugas penalaran. Hanya dengan parameter 4x, Universal Transformer mencapai 40% pass@1 pada ARC-AGI 1. Vanilla Transformers dengan skor parameter 32x hanya 23.75%. Cukup menskalakan kedalaman atau lebar di Transformer standar menghasilkan pengembalian yang berkurang dan bahkan dapat menurunkan kinerja. Mereka memperkenalkan Universal Reasoning Model (URM), yang meningkatkan ini dengan dua teknik. Pertama, ConvSwiGLU menambahkan konvolusi pendek secara mendalam setelah ekspansi MLP, menyuntikkan pencampuran token lokal ke jalur nonlinier. Kedua, Truncated Backpropagation Through Loops melewatkan komputasi gradien untuk iterasi berulang awal, menstabilkan pengoptimalan. Hasil: 53,8% pass@1 pada ARC-AGI 1, naik dari 40% (TRM) dan 34,4% (HRM). Pada ARC-AGI 2, URM mencapai 16% pass@1, hampir tiga kali lipat HRM dan lebih dari dua kali lipat TRM. Akurasi Sudoku mencapai 77.6%. Ablasi: - Menghilangkan penurunan konvolusi pendek pass@1 dari 53,8% menjadi 45,3%. Menghapus perambatan balik yang terpotong menurunkannya menjadi 40%. - Mengganti SwiGLU dengan aktivasi yang lebih sederhana seperti kinerja tank ReLU hingga 28,6%. - Menghapus perhatian softmax sepenuhnya meruntuhkan akurasi menjadi 2%. Struktur berulang mengubah komputasi menjadi kedalaman efektif. Transformator Standar menghabiskan FLOP untuk penyempurnaan yang berlebihan di lapisan yang lebih tinggi. Komputasi berulang memusatkan anggaran yang sama pada penalaran berulang. Penalaran kompleks mendapat manfaat lebih dari komputasi berulang daripada dari skala. Model kecil dengan struktur berulang mengungguli model statis besar pada tugas yang memerlukan abstraksi multi-langkah.