Stille Kenmerken Leren in Transformers Dit is een van de meest fascinerende papers die ik deze week heb gelezen. Laat me het uitleggen: Het stelt dat verliescurves misleidend kunnen zijn over wat een model leert. De standaardaanpak voor het monitoren van de training van neurale netwerken is afhankelijk van verlies als de primaire maat voor vooruitgang. Als het verlies vlak is, gebeurt er niets. Als het verlies daalt, vindt er leren plaats. Maar deze aanname valt weg bij algoritmische taken. Dit nieuwe onderzoek heeft Transformers getraind op tien fundamentele algoritmische taken en ontdekte "stille kenmerken": interne representaties die zich ontwikkelen terwijl het verlies stil lijkt te staan. Ze ontdekken dat modellen tussenliggende computationele stappen leren lang voordat die stappen de outputprestaties verbeteren. Draagbits in optelling, wachtrijlidmaatschap in BFS, partiële producten in vermenigvuldiging. Deze kenmerken komen naar voren tijdens uitgebreide plateaus, en combineren dan plotseling om de taak op te lossen. De onderzoekers hebben interne representaties onderzocht in binaire rekenkunde (optelling, vermenigvuldiging), grafalgoritmen (BFS, kortste pad, topologische sortering, MST) en sequentie-optimalisatie (maximale subarray, activiteitselectie). Zes taken toonden duidelijke tweefase-overgangen: langdurige stagnatie gevolgd door abrupte prestatieverbeteringen. Ablatie-experimenten bevestigden causaliteit. Het verwijderen van draagkenmerken uit een 64-bits optelmodel veroorzaakte een nauwkeurigheidsdaling van 75,1%. Het afschalen van wachtrijlidmaatschap in BFS verlaagde de nauwkeurigheid met 43,6%. Algoritmische taken vereisen meerdere subroutines die samen functioneren. Individuele correcte componenten verlagen het verlies niet totdat alle onderdelen op één lijn liggen. Modellen accumuleren latente capaciteiten onder vlakke verliescurves. Het lijkt erop dat cross-entropieverlies een onvolledige diagnose is. Substantieel intern leren kan plaatsvinden terwijl de metrics stil lijken te staan. Dit motiveert rijkere monitoringtools naast verliescurves. 🔖 (bookmark het) Paper: