Kimi ekibinden Banger raporu: Dikkat Kalıcı Bilgiler Kalan bağlantılar derin Transformers'ları yönlendirilebilir hale getirdi. Ama aynı zamanda kontrolsüz gizli durum büyümesini derinlikle zorlarlar. Bu çalışma, daha temiz bir alternatif öneriyor. Önceki katman çıktılarına göre sabit kalıntı birikimi softmax dikkat ile değiştiren Dikkat Katıkları (Attention Residuals) eklenir. Her katmanı körü körüne toplamak yerine, aslında ihtiyaç duyduğu önceki temsilleri seçici olarak geri alır. Bunu ölçekte pratik tutmak için, katmanları blok özetlerine sıkıştıran blok bazında bir versiyon ekliyorlar ve kazançların çoğunu minimum sistem yükü ile geri kazanıyorlar. Neden önemli? Modern LLM'lerde kalıntı yollar neredeyse hiç değişmedi, ancak bilginin derinlikte nasıl hareket ettiğini onlar belirliyor. Bu makale, karıştırmanın içeriğe bağlı yapılmasının ölçeklendirme yasalarını iyileştirdiğini, 1,25 kat daha fazla hesaplama ile eğitilen bir temel çizgiye uydurduğunu, GPQA-Diamond'ı +7,5 ve HumanEval'i +3,1 artırdığını, çıkarım maliyetini %2'nin altında tuttuğunu, göstermektedir. Makale: Akademimizde etkili yapay zeka ajanları oluşturmayı öğrenin: