Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
Inlärning av protokoll
Pluralis Research delade inlägget
Att använda vackra Grafana-instrumentpaneler för allt internt, så mycket trevligare än Tensorboard. Wandb fortfarande bra men fungerar inte riktigt med decentraliserad träning. Får mig att undra hur den interna vis-verktyget ser ut i openai - måste vara otroligt.




3,04K
Pluralis Research delade inlägget
Förmodligen största veckan i decentraliserad utbildning hittills efter ICLR och mer på väg att komma ut. Sammanfattning av situationen som den ser ut idag:
1. Decentraliserad RL efter träning fungerar tydligt. @gensynai det senaste med fantastiska resultat här. Denna process tar en stark basmodell, ger kopior till deltagarna som genererar resonemangsspår som sedan samlas in och används för att förbättra basmodellen. Detta bygger naturligtvis på att basmodellerna är tillgängliga/öppna och är betydligt billigare än Pretraining. Noder behöver bara göra slutsatsdragning. Nackdelen är att det finns allt fler bevis (och det är väldigt intuitivt) att det inte är möjligt att RL dig förbi en dålig basmodell. Så du behåller ett beroende. Vi måste vänta på resultaten av dessa körningar, men verkligheten är att detta kommer att fungera på ett eller annat sätt eftersom processen är så trivialt paralliserbar.
2. Förträning av dataparalleller (DP) ser bra ut. Både @NousResearch och @PrimeIntellect har redan resultat här i modellstorlekar i skala 10B. Det kommer att vara mycket enkelt (men dyrt för nodoperatörer) att utöka detta till 100B-fallet. Detta beror på att i DP behåller varje nod en fullständig kopia av modellen, så du behöver till exempel 8xh100s för att träna i 10b-storleken; Du kan inte använda små kort. Så du kan bara utöka den här tekniken genom att skala upp noderna och göra samarbetsträning mellan datacenter (dvs. varje nod består av 100 H100-tal eller så, och du tränar >100b-modellen). Du har också problemet att alla ser en fullständig kopia av modellen så det är inte klart hur man ska tjäna pengar (Protocol Learning löser detta).
3. Model-Parallel (där själva modellen är uppdelad över noder - tänk 1000 geografiskt separata Macbooks som tränar en 100b param-modell, där varje enhet bara har en liten del av den totala modellen) började visa de första antydningarna om att det var möjligt. Vi (@PluralisHQ) publicerade dokumentet "Beyond Top k" som komprimerar kommunikation mellan noder över 90 %, samt två andra arbeten som visar att du kan använda heterogena enheter i en PP-installation (Pipeline Parallel). Vi fick också vår Nesterov-metod för PP accepterad i ICML2025, som så vitt jag vet är den första artikeln om decentraliserad träning som accepterats till en stor AI-konferens sedan den ursprungliga SWARM-artikeln, och bör hjälpa till att katalysera intresset från vanliga AI-kretsar.
Löses decentraliserad modellparallell → NEJ. Kommunikationsbandbredden är så mycket sämre jämfört med ett datacenter att inte ens 90% räcker. Vi måste komma till cirka 300x komprimering för att nå paritet med centraliserad träning. Det återstår en stor fråga om detta ens är möjligt - du förstör så mycket av träningssignalen genom att göra detta. Detta är Pluralis fokus.
Men vad händer om detta fungerar? För första gången kan du göra riktig kollaborativ förträning. Det finns inget beroende av deepseek eller Meta. Enskilda användare kan kombinera beräkning för att skapa modeller i den här skalan, från grunden. Vi får verklig community-driven innovation som sker här på ett sätt som aldrig har funnits hittills. Decentraliserad RL-baserad efterträning kan sedan användas för att göra dessa modeller ännu bättre.
Verkligheten är att vi befinner oss i början av något enormt betydelsefullt som händer här. Detta kommer att bli ett stort område. Ovanstående företag går på alla cylindrar, ett gäng fler är på väg att komma ut ur porten inom kort, och jag förväntar mig inte att detta kommer att sakta ner alls från och med nu tills vad som än händer händer. Och om du läser detta är du tidig.
14,21K
1/2 Vi utökade vårt tidigare arbete i den dataparallella regimen (där varje nod har en fullständig kopia av modellen) till den modellparallella regimen. Detta är det första arbetet, bortsett från det ursprungliga svärmdokumentet, som handlar om scenariot där själva modellen är fragmenterad över enheter.
1,97K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda