Hypotesen om universell vikt och delrum Våra resultat ger nya insikter i informations inneboende organisation inom djupa nätverk och väcker viktiga frågor om möjligheten att upptäcka dessa universella delrum utan behov av omfattande data och beräkningsresurser. ... Genom att utföra lagervisa spektrala dekompositioner och behålla endast de ledande huvudriktningarna kan en noggrann approximation av dessa universella delrum extraheras. Empiriskt framträder detta beteende brett: i fullt finjusterade modeller och LoRA-baserade adaptrar, i modeller tränade från grunden, i både generativa och diskriminerande miljöer, samt i multimodala konfigurationer. Dessutom generaliseras de approximerade delrummen till uppgifter utanför fördelningen, där projicering av modeller och inlärning av endast en liten uppsättning koefficienter räcker för att återställa stark prestanda. Detta möjliggör anpassning till nya uppgifter utan omträning eller lagring av hela vikter, och stödjer robust multitaskinlärning, skalbar finjustering och principiell modellsammanslagning inom en enda enhetlig ram. De praktiska konsekvenserna är betydande. Genom att återanvända en gemensam uppsättning lagervisa huvudriktningar och endast lära sig lättviktskoefficienter per uppgift kan stora modeller utökas och levereras med dramatiskt minskad beräknings-, minnes- och ingenjörsöverhead. ... Vi kan effektivt återanvända och ersätta tillgängliga förtränade modeller med en universell delrymdsmodell där varje individ representeras av en gles uppsättning koefficienter. I detta avsnitt visar vi en uppsättning experiment där vi använder de universella delrummen för att lära oss nya uppgifter genom att frysa komponenterna och helt enkelt lära oss koefficienterna med hjälp av gradientnedstigning. Vi finner att eftersom vi bara lär oss koefficienterna, minskar det drastiskt antalet parametrar som krävs för att träna de nya modellerna. Dessutom, eftersom dessa koefficienter helt enkelt är linjära skalningsvärden, är optimeringen jämnare och snabbare.