Універсальна модель мислення Універсальні Трансформери розгромлюють стандартних Трансформерів у завданнях мислення. Але чому? Попередні дослідження приписували ці досягнення складним архітектурним інноваціям, таким як ієрархічні проєкти та складні механізми огорожі. Але ці дослідники знайшли простіше пояснення. Це нове дослідження демонструє, що зростання продуктивності ARC-AGI зумовлене переважно двома часто недооціненими факторами: повторюваним індуктивним упередженням і сильною нелінійністю. Повторне застосування однієї трансформації працює набагато краще, ніж складання окремих шарів для завдань логікування. Маючи лише 4x параметри, універсальний трансформатор досягає 40% pass@1 на ARC-AGI 1. Vanilla Transformers з 32x параметрами набирають лише 23,75%. Просте масштабування глибини або ширини у стандартних трансформерах дає зменшення віддачі і навіть може погіршити продуктивність. Вони впроваджують Універсальну модель мислення (URM), яка підсилює це двома методами. По-перше, ConvSwiGLU додає коротку згортку по глибині після розширення MLP, впроваджуючи локальне змішування токенів у нелінійний шлях. По-друге, усичене зворотне поширення через цикли пропускає градієнтні обчислення для ранніх рекурентних ітерацій, стабілізуючи оптимізацію. Результати: 53,8% pass@1 на ARC-AGI 1, що більше порівняно з 40% (TRM) та 34,4% (HRM). На ARC-AGI 2 URM досягає 16% pass@1, майже потроївши пульс і більш ніж удвічі збільшуючи TRM. Точність судоку досягає 77,6%. Абляції: - Видалення короткої згортки знижує pass@1 з 53,8% до 45,3%. Видалення усічено зворотного поширення знижує його до 40%. - Заміна SwiGLU на простіші активації, наприклад, ReLU підвищує продуктивність до 28,6%. - Видалення attention softmax повністю знижує точність до 2%. Рекурентна структура перетворює обчислення в ефективну глибину. Стандартні трансформатори витрачають FLOP на резервне уточнення у вищих шарах. Рекурентні обчислення зосереджують той самий бюджет на ітеративному мисленні. Складне мислення більше виграє від ітеративних обчислень, ніж від масштабу. Малі моделі з рекурентною структурою перевершують великі статичні моделі у завданнях, що потребують багатоступеневої абстракції.