Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fysiker, AI-grundare, Manifold Podcast
Hypotesen om universell vikt och delrum
Våra resultat ger nya insikter i informations inneboende organisation inom djupa nätverk och väcker viktiga frågor om möjligheten att upptäcka dessa universella delrum utan behov av omfattande data och beräkningsresurser.
... Genom att utföra lagervisa spektrala dekompositioner och behålla endast de ledande huvudriktningarna kan en noggrann approximation av dessa universella delrum extraheras. Empiriskt framträder detta beteende brett: i fullt finjusterade modeller och LoRA-baserade adaptrar, i modeller tränade från grunden, i både generativa och diskriminerande miljöer, samt i multimodala konfigurationer. Dessutom generaliseras de approximerade delrummen till uppgifter utanför fördelningen, där projicering av modeller och inlärning av endast en liten uppsättning koefficienter räcker för att återställa stark prestanda. Detta möjliggör anpassning till nya uppgifter utan omträning eller lagring av hela vikter, och stödjer robust multitaskinlärning, skalbar finjustering och principiell modellsammanslagning inom en enda enhetlig ram.
De praktiska konsekvenserna är betydande. Genom att återanvända en gemensam uppsättning lagervisa huvudriktningar och endast lära sig lättviktskoefficienter per uppgift kan stora modeller utökas och levereras med dramatiskt minskad beräknings-, minnes- och ingenjörsöverhead.
... Vi kan effektivt återanvända och ersätta tillgängliga förtränade modeller med en universell delrymdsmodell där varje individ representeras av en gles uppsättning koefficienter. I detta avsnitt visar vi en uppsättning experiment där vi använder de universella delrummen för att lära oss nya uppgifter genom att frysa komponenterna och helt enkelt lära oss koefficienterna med hjälp av gradientnedstigning. Vi finner att eftersom vi bara lär oss koefficienterna, minskar det drastiskt antalet parametrar som krävs för att träna de nya modellerna. Dessutom, eftersom dessa koefficienter helt enkelt är linjära skalningsvärden, är optimeringen jämnare och snabbare.

41
Det här dök precis upp i mitt flöde, från ungefär ett år sedan – ser riktigt bra ut! @davidpgoldman

steve hsu4 feb. 2025
Detta är från min AsiaTimes-artikel med den stora @davidpgoldman
"AGI-pillade" tech-bros följer bara #6. Deras övertygelser, tro det eller ej, ligger till grund för USA:s chipkrigsstrategi: AGI är nära, att stoppa PRC:s framsteg i #6 är högsta prioritet, och att ge upp halvledarindustrin i processen är okej så länge vi först når snabb uppskjutning av AGI.
Uppenbarligen kanske det inte blir så här. Jag kan redan se, av egen erfarenhet som AI-grundare, att tillämpningen av AI i den allmänna ekonomin begränsas av mänskliga beslut, som är långsam att anpassa sig till den nya teknologin. Saker kan ta längre tid än vad 30-åriga teknikproffs förväntar sig, även om AI:ns framsteg i sig går snabbt.
De flesta AI-entusiaster förstår inte den fysiska världen särskilt väl (kemi, fysik, hård ingenjörskonst, biologi, aphjärnpsykologi) så de överskattar hur snabbt "översättningen" (för att använda biotekniktermen) av nya innovationer till praktiken kommer att ske. Inom Progress Studies-området kallas detta ofta för teknologidiffusionsprocessen, som är mycket långsammare än vad teknologer själva förväntar sig.

17
Topp
Rankning
Favoriter
