Kullandığınız her temel modelde aynı hata var. Yeni düzeltildi. 2015'ten beri her derin ağ aynı şekilde inşa ediliyor: her katman bir miktar hesaplama yapıyor, sonucunu çalışan toplamına ekliyor ve iletir. Basit. Ama bir sorun var, katman 100'e gelindiğinde, herhangi bir katmandan gelen sinyal diğer her şeyin toplamının altında gömülüyor. Her yeni katman giderek azalıyor. Kimse bunu düzeltmedi çünkü yeterince iyi çalıştı. Moonshot AI bunu değiştirdi. Yeni yöntemleri Dikkat Kalıntıları, her katmanın önceki tüm katmanlara geri dönüp şu anda gerçekten önemli olanları seçmesini sağlıyor. Kör koşu toplamı yerine, seçici geri alma seçeneği var. Bir benzetme: Her taslağın otomatik olarak tek bir belgeye birleştirildiği bir makale yazdığınızı hayal edin. 50. taslakta gelindiğinde, en son düzenlemeleriniz görünmez oluyor. AttnRes, her taslağı ayrı tutmanıza ve ihtiyacınız olanlardan çekmenize olanak tanır. Bu neyi düzeltir: 1. Daha derin katmanlar artık boğulmuyor 2. Eğitim tüm ağ genelinde daha istikrarlı hale gelir 3. Model kendi derinliğini daha verimli kullanır Ölçekte pratik yapmak için, katmanları bloklara gruplar ve her katman yerine blok özetleri üzerinden takip ederler. Genel çıkarım: %2'nin altında. Sonuç: Aynı performansa ulaşmak için %25 daha az hesaplama var. 48B parametreli bir modelde test edildi. Farklı boyutlarda geçerlidir....