Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

А що, якби ви могли замінити основну частину трансформатора на щось простіше і міцніше? Дослідники з Прінстона, NYU та CMU представляють Дерфа. Вони замінили стандартний шар «нормалізації» на просту функцію для кожного елемента під назвою Derf (на основі гаусової функції помилки). Він просто плавно знижує значення, щоб тренування залишалося стабільним. Тепер він перевершує LayerNorm і попередню найкращу альтернативу (DyT) у розпізнаванні зображень, генерації зображень за допомогою штучного інтелекту та моделюванні послідовностей ДНК. Сильніші трансформатори без нормалізації Стаття: Код: Наш звіт:

Найкращі

Рейтинг

Вибране