Co kdybyste mohli nahradit jádro Transformeru něčím jednodušším a silnějším? Výzkumníci z Princetonu, NYU a CMU představují Derf. Standardní "normalizační" vrstvu vyměnili za jednoduchou, element po prvku funkci nazvanou Derf (založenou na Gaussově chybové funkciji). Jednoduše hladce stlačuje hodnoty, aby udržel trénink stabilní. Nyní překonává LayerNorm a předchozí nejlepší alternativu (DyT) v rozpoznávání obrazů, generování AI obrazů a modelování sekvencí DNA. Silnější transformátory bez normalizace Článek: Kód: Naše zpráva: