Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
Protocol leren
Pluralis Research heeft opnieuw gepost
Gebruik mooie Grafana-dashboards voor alles intern, zoveel mooier dan Tensorboard. Wandb is nog steeds goed, maar werkt niet echt met gedecentraliseerde training. Het doet me afvragen hoe de interne visualisatietools bij OpenAI zijn - dat moet ongelooflijk zijn.




3,04K
Pluralis Research heeft opnieuw gepost
Waarschijnlijk de grootste week in gedecentraliseerde training tot nu toe na ICLR en er komt er nog meer uit. Samenvatting van de situatie zoals die er nu uitziet:
1. Gedecentraliseerde RL-natraining werkt duidelijk. @gensynai hier de laatste met geweldige resultaten. Dit proces neemt een sterk basismodel, geeft kopieën aan deelnemers die redeneersporen genereren die vervolgens worden verzameld en gebruikt om het basismodel te verbeteren. Dit is uiteraard afhankelijk van het feit dat de basismodellen beschikbaar/open gewicht zijn, en is aanzienlijk goedkoper dan Pretraining. Knooppunten hoeven alleen maar inferentie te doen. Het nadeel is dat er steeds meer bewijs is (en het is heel intuïtief) dat het niet mogelijk is om je een weg te banen langs een slecht basismodel. Je behoudt dus een afhankelijkheid. We moeten wachten op de resultaten van deze runs, maar de realiteit is dat dit op de een of andere manier gaat werken, omdat het proces zo triviaal verlambaar is.
2. Data-Parallel (DP) pretraining ziet er goed uit. Zowel @NousResearch als @PrimeIntellect hebben hier al resultaten op schaalgrootte van 10B. Het zal heel eenvoudig zijn (maar duur voor node-operators) om dit uit te breiden naar de 100B-behuizing. Dit komt omdat in DP elke node een volledige kopie van het model bijhoudt, dus je hebt bijvoorbeeld 8xh100s nodig om op de 10b-maat te trainen; Je kunt geen kleine kaarten gebruiken. Je kunt deze techniek dus gewoon uitbreiden door de nodes op te schalen en cross-datacenter samenwerkingstraining te doen (d.w.z. elke node bestaat uit ongeveer 100 H100's, en je traint >100b-model). Je hebt ook het probleem dat iedereen een volledige kopie van het model ziet, dus niet duidelijk hoe je geld kunt verdienen (Protocol Learning lost dit op).
3. Model-Parallel (waarbij het model zelf is opgesplitst over knooppunten - denk aan 1000 geografisch gescheiden Macbooks die een 100b param-model trainen, waarbij elk apparaat slechts een klein deel van het totale model heeft) begon de eerste vermoedens van mogelijk te vertonen. We (@PluralisHQ) hebben de 'Beyond Top k'-paper gepubliceerd die communicatie tussen knooppunten van meer dan 90% comprimeert, evenals twee andere werken die laten zien dat je heterogene apparaten kunt gebruiken in een Pipeline Parallel (PP) opstelling. We hebben ook onze Nesterov-methode voor PP geaccepteerd in ICML2025, wat voor zover ik weet het eerste document over gedecentraliseerde training is dat is geaccepteerd in een grote AI-conferentie sinds het oorspronkelijke SWARM-artikel, en zou moeten helpen om de interesse van reguliere AI-kringen te katalyseren.
Is gedecentraliseerd model-parallel opgelost → NEE. De communicatiebandbreedte is zoveel slechter in vergelijking met een datacenter, dat zelfs 90% niet genoeg is. We moeten naar ongeveer 300x compressie om pariteit te bereiken met gecentraliseerde training. Er blijft een grote vraag of dit überhaupt mogelijk is - je vernietigt zoveel van het trainingssignaal door dit te doen. Dit is de focus van Pluralis.
Maar wat gebeurt er als dit werkt? Voor het eerst kun je echte gezamenlijke pretraining doen. Er is geen afhankelijkheid van deepseek of Meta. Individuen kunnen computing combineren om modellen op deze schaal te maken, vanaf nul. We krijgen hier echte community-gedreven innovatie op een manier die tot nu toe nooit heeft bestaan. Gedecentraliseerde post-training op basis van RL kan vervolgens worden gebruikt om deze modellen nog beter te maken.
De realiteit is dat we ons in de begindagen bevinden van iets enorm belangrijks dat hier gebeurt. Dit wordt een belangrijk vakgebied. De bovenstaande bedrijven draaien op volle toeren, er staan er binnenkort nog een heleboel op het punt uit de poort te komen, en ik verwacht niet dat dit vanaf nu helemaal zal vertragen totdat wat er ook gebeurt, gebeurt. En als je dit leest, ben je vroeg.
14,21K
Pluralis Research heeft opnieuw gepost
Verbazingwekkend om te zien dat het pijplijnparallellismedocument van Pluralis is geaccepteerd in ICML.
ICML is een van de grootste en meest gerenommeerde AI-conferenties ter wereld, die dit jaar een grote DeAI-vertegenwoordiging zal hebben.
DeAI-zomer wordt episch.
3,92K
1/2 We hebben ons eerdere werk in het data-parallelle regime (waarbij elke node een volledige kopie van het model heeft) uitgebreid naar het Model-Parallel regime. Dit is het eerste werk, afgezien van het originele zwermpapier, dat zich bezighoudt met het scenario waarin het model zelf over apparaten wordt gescherven.
1,96K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste