DeepSeek släppte precis ett riktigt bra papper för att avsluta 2025 "mHC: Mångfaldsbegränsade hyperkopplingar" Hyper-anslutningar omvandlar den enda kvarvarande "motorvägen" i transformatorerna till n parallella filer, och varje lager lär sig hur man blandar och delar signal mellan filerna. Men om varje lager godtyckligt kan förstärka eller krympa banor, gör resultatet av dessa omkastningar över djupet att signaler/gradienter exploderar eller tonar ut. Så de tvingar varje blandning att vara massbevarande: en dubbelstokastisk matris (icke-negativ, varje rad/kolumn summeras till 1). Varje lager kan bara omfördela signalen över banor, inte skapa eller förstöra den, så den djupa hoppbanan förblir stabil medan funktionerna fortfarande blandas! med n=4 lägger det till ~6,7 % träningstid, men minskar slutförlusten med ~0,02 och behåller värsta fallets bakåtvinst ~1,6 (jämfört med ~3000 utan begränsningen), med konsekventa benchmarkvinster över hela linjen