DeepSeek, 2025'i kapatmak için yeni bir harika gazete yayınladı "mHC: Manifold Kısıtlı Hiper-Bağlantılar" Hyper-Connections, transformatörlerdeki tek kalıntı "otoyolu" n paralel şeride dönüştürür ve her katman şeritler arasında sinyal değiştirmeyi ve paylaşmayı öğrenir. Ama her katman rastgele şeritleri güçlendirebilir veya daraltabiliyorsa, derinlikteki bu değişimlerin ürünü sinyallerin/gradyanların patlamasına veya kaybolmasına neden olur. Bu yüzden her karışıklığı kütle korumalı hale getirirler: çift stokastik bir matris (negatif değil, her satır/sütun 1'e toplanır). Her katman sadece sinyali koridorlar arasında yeniden dağıtabiliyor, yaratmıyor ya da yok edemiyor, böylece derin atlama yolu sabit kalıyor ve özellikler hâlâ karışıyor! n=4 ile bu %6,7 antrenman süresi ekliyor, ancak nihai kaybı ~0,02 azaltıyor ve en kötü durumda geriye doğru kazanç ~1,6 (kısıtlama olmadan ~3000'e karşı) kısıtlamadan devam ediyor, her yerde tutarlı kıyaslama galibiyetleriyle