Elk fundamentaal model dat je ooit hebt gebruikt heeft dezelfde bug. Het is net opgelost. Sinds 2015 is elk diep netwerk op dezelfde manier gebouwd: elke laag doet een berekening, voegt het resultaat toe aan een lopend totaal en geeft het door. Simpel. Maar er is een probleem, bij laag 100 is het signaal van een enkele laag begraven onder de som van alles. Elke nieuwe laag doet er steeds minder toe. Niemand heeft dit opgelost omdat het goed genoeg werkte. Moonshot AI heeft dat net veranderd. Hun nieuwe methode, Attention Residuals, laat elke laag terugkijken naar alle voorgaande lagen en kiezen welke op dit moment echt belangrijk zijn. In plaats van een blinde lopende totaal krijg je selectieve terughaal. De analogie: stel je voor dat je een essay schrijft waarbij elke versie automatisch in één document wordt samengevoegd. Bij versie 50 zijn je laatste aanpassingen onzichtbaar. AttnRes laat je elke versie apart houden en uit de versies halen die je nodig hebt. Wat dit oplost: 1. Diepere lagen worden niet langer overstemd 2. Training wordt stabieler over het hele netwerk 3. Het model gebruikt zijn eigen diepte efficiënter Om het praktisch op schaal te maken, groeperen ze lagen in blokken en letten ze op bloksamenvattingen in plaats van elke enkele laag. Overhead bij inferentie: minder dan 2%. Het resultaat: 25% minder rekencapaciteit om dezelfde prestaties te bereiken. Getest op een model met 48B-parameters. Geldt voor alle formaten....