Mô hình Lý luận Toàn cầu Các Transformer Toàn cầu vượt trội hơn các Transformer tiêu chuẩn trong các nhiệm vụ lý luận. Nhưng tại sao? Công trình trước đây đã quy cho những lợi ích này là do các đổi mới kiến trúc phức tạp như thiết kế phân cấp và cơ chế điều khiển phức tạp. Nhưng các nhà nghiên cứu này đã tìm thấy một lời giải thích đơn giản hơn. Nghiên cứu mới này chứng minh rằng những cải thiện về hiệu suất trên ARC-AGI chủ yếu đến từ hai yếu tố thường bị bỏ qua: thiên kiến quy hồi và phi tuyến tính mạnh. Việc áp dụng một phép biến đổi duy nhất lặp đi lặp lại hoạt động tốt hơn nhiều so với việc xếp chồng các lớp khác nhau cho các nhiệm vụ lý luận. Với chỉ 4x tham số, một Transformer Toàn cầu đạt 40% pass@1 trên ARC-AGI 1. Các Transformer Vanilla với 32x tham số chỉ đạt 23.75%. Việc chỉ mở rộng độ sâu hoặc chiều rộng trong các Transformer tiêu chuẩn mang lại lợi nhuận giảm dần và thậm chí có thể làm giảm hiệu suất. Họ giới thiệu Mô hình Lý luận Toàn cầu (URM), nâng cao điều này với hai kỹ thuật. Đầu tiên, ConvSwiGLU thêm một phép tích chập ngắn theo chiều sâu sau khi mở rộng MLP, tiêm vào sự trộn lẫn token cục bộ vào con đường phi tuyến tính. Thứ hai, Truncated Backpropagation Through Loops bỏ qua việc tính toán gradient cho các vòng lặp quy hồi sớm, ổn định hóa tối ưu hóa. Kết quả: 53.8% pass@1 trên ARC-AGI 1, tăng từ 40% (TRM) và 34.4% (HRM). Trên ARC-AGI 2, URM đạt 16% pass@1, gần gấp ba lần HRM và hơn gấp đôi TRM. Độ chính xác Sudoku đạt 77.6%. Các thí nghiệm: - Việc loại bỏ tích chập ngắn làm giảm pass@1 từ 53.8% xuống 45.3%. Việc loại bỏ backpropagation cắt ngắn làm giảm xuống 40%. - Thay thế SwiGLU bằng các kích hoạt đơn giản hơn như ReLU làm giảm hiệu suất xuống 28.6%. - Việc loại bỏ hoàn toàn softmax attention làm sụp đổ độ chính xác xuống 2%. Cấu trúc quy hồi chuyển đổi tính toán thành độ sâu hiệu quả. Các Transformer tiêu chuẩn tiêu tốn FLOPs cho việc tinh chỉnh dư thừa ở các lớp cao hơn. Tính toán quy hồi tập trung cùng ngân sách vào lý luận lặp đi lặp lại. Lý luận phức tạp hưởng lợi nhiều hơn từ tính toán lặp đi lặp lại hơn là từ quy mô. Các mô hình nhỏ với cấu trúc quy hồi vượt trội hơn các mô hình tĩnh lớn trong các nhiệm vụ yêu cầu trừu tượng nhiều bước.