А що, якби ви могли замінити основну частину трансформатора на щось простіше і міцніше? Дослідники з Прінстона, NYU та CMU представляють Дерфа. Вони замінили стандартний шар «нормалізації» на просту функцію для кожного елемента під назвою Derf (на основі гаусової функції помилки). Він просто плавно знижує значення, щоб тренування залишалося стабільним. Тепер він перевершує LayerNorm і попередню найкращу альтернативу (DyT) у розпізнаванні зображень, генерації зображень за допомогою штучного інтелекту та моделюванні послідовностей ДНК. Сильніші трансформатори без нормалізації Стаття: Код: Наш звіт: