Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
Protokoll-Lernen
Pluralis Research erneut gepostet
Die Verwendung schöner Grafana-Dashboards für alles intern ist so viel schöner als Tensorboard. Wandb ist immer noch gut, funktioniert aber nicht wirklich mit dezentralem Training. Das lässt mich fragen, wie die internen Visualisierungstools bei OpenAI sind - sie müssen unglaublich sein.




3,04K
Wir haben einen wichtigen Meilenstein in der vollständig dezentralen Schulung erreicht: Zum ersten Mal haben wir gezeigt, dass ein großes Sprachmodell auf Verbrauchergeräte, die über das Internet verbunden sind, aufgeteilt und trainiert werden kann - ohne Einbußen bei Geschwindigkeit oder Leistung.

161,08K
Pluralis Research erneut gepostet
Wahrscheinlich die bisher größte Woche im Bereich des dezentralen Trainings nach der ICLR und weitere werden bald herauskommen. Zusammenfassung der heutigen Situation:
1. Die dezentrale RL-Nachschulung funktioniert eindeutig. @gensynai hier das Neueste mit großartigen Ergebnissen. Dieser Prozess nimmt ein starkes Basismodell und gibt Kopien an die Teilnehmer, die Schlussfolgerungen generieren, die dann gesammelt und zur Verbesserung des Basismodells verwendet werden. Dies hängt natürlich davon ab, dass die Basismodelle verfügbar sind/mit offenem Gewicht ausgestattet sind, und ist deutlich billiger als Pretraining. Knoten müssen nur Inferenz durchführen. Der Nachteil ist, dass es immer mehr Beweise dafür gibt (und es ist sehr intuitiv), dass es nicht möglich ist, sich an einem schlechten Basismodell vorbei zu RL zu bewegen. Sie behalten also eine Abhängigkeit bei. Wir müssen auf die Ergebnisse dieser Läufe warten, aber die Realität ist, dass dies auf die eine oder andere Weise funktionieren wird, weil der Prozess so trivial parallisierbar ist.
2. Datenparalleles (DP) Pretraining sieht gut aus. Sowohl @NousResearch als auch @PrimeIntellect haben hier bereits Ergebnisse bei Modellgrößen im Maßstab 10B. Es wird sehr einfach (aber teuer für Knotenbetreiber) sein, dies auf den 100B-Fall auszuweiten. Dies liegt daran, dass in DP jeder Knoten eine vollständige Kopie des Modells speichert, sodass Sie beispielsweise 8xh100s benötigen, um mit der Größe 10b zu trainieren. Du kannst keine kleinen Karten verwenden. Sie können diese Technik also einfach erweitern, indem Sie die Knoten hochskalieren und rechenzentrumsübergreifendes kollaboratives Training durchführen (d. h. jeder Knoten besteht aus etwa 100 H100, und Sie trainieren >100b-Modell). Sie haben auch das Problem, dass jeder eine vollständige Kopie des Modells sieht, so dass nicht klar ist, wie man es monetarisieren kann (Protocol Learning löst dies).
3. Model-Parallel (wo das Modell selbst auf Knoten aufgeteilt ist - denken Sie an 1000 geografisch getrennte Macbooks, die ein 100b-Param-Modell trainieren, wobei jedes Gerät nur einen kleinen Teil des Gesamtmodells hat) begannen die ersten Andeutungen zu zeigen, dass dies möglich ist. Wir (@PluralisHQ) haben das Paper "Beyond Top k" veröffentlicht, das die Kommunikation zwischen Knoten um mehr als 90 % komprimiert, sowie zwei weitere Arbeiten, die zeigen, dass man heterogene Geräte in einem Pipeline Parallel (PP)-Setup verwenden kann. Wir haben auch unsere Nesterov-Methode für PP in ICML2025 aufgenommen, die, soweit ich weiß, das erste Papier über dezentrales Training ist, das seit dem ursprünglichen SWARM-Papier in eine große KI-Konferenz aufgenommen wurde, und dazu beitragen sollte, das Interesse von Mainstream-KI-Kreisen zu katalysieren.
Ist dezentral modellparallel gelöst → NEIN. Die Kommunikationsbandbreite ist im Vergleich zu einem Rechenzentrum so viel schlechter, dass selbst 90% nicht ausreichen. Wir müssen eine etwa 300-fache Kompression erreichen, um mit zentralisiertem Training Parität zu erreichen. Es bleibt die große Frage, ob dies überhaupt möglich ist - Sie zerstören so viel vom Trainingssignal, indem Sie dies tun. Darauf konzentriert sich Pluralis.
Was passiert jedoch, wenn dies funktioniert? Zum ersten Mal können Sie ein echtes kollaboratives Pretraining durchführen. Es besteht keine Abhängigkeit von Deepseek oder Meta. Einzelpersonen können Berechnungen kombinieren, um Modelle in diesem Maßstab von Grund auf neu zu erstellen. Wir bekommen hier tatsächliche, von der Community betriebene Innovation auf eine Art und Weise, die es bisher noch nie gegeben hat. Dezentrales RL-basiertes Post-Training kann dann genutzt werden, um diese Modelle noch besser zu machen.
Die Realität ist, dass wir uns in den frühesten Tagen befinden, in denen hier etwas enorm Bedeutendes geschieht. Das wird ein wichtiges Feld sein. Die oben genannten Unternehmen feuern aus allen Rohren, ein Haufen mehr wird in Kürze aus dem Tor kommen, und ich erwarte nicht, dass sich dies von jetzt an verlangsamen wird, bis was auch immer passiert. Und wenn Sie dies lesen, sind Sie früh dran.
14,21K
Pluralis Research erneut gepostet
Es ist erstaunlich zu sehen, dass das Pipeline-Parallelismus-Papier von Pluralis in ICML akzeptiert wurde.
ICML ist eine der größten und renommiertesten KI-Konferenzen der Welt, die in diesem Jahr eine große DeAI-Vertretung haben wird.
Der DeAI-Sommer wird episch.
3,92K
1/2 Wir haben unsere bisherige Arbeit im datenparallelen Regime (bei dem jeder Knoten eine vollständige Kopie des Modells hat) auf das modellparallele Regime ausgeweitet. Dies ist die erste Arbeit, abgesehen vom ursprünglichen Schwarmpapier, die sich mit dem Szenario beschäftigt, in dem das Modell selbst über Geräte gestreift wird.
1,96K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten