Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
Apprentissage par protocole
Pluralis Research a reposté
Utiliser de magnifiques tableaux de bord Grafana pour tout en interne, c'est tellement mieux que Tensorboard. Wandb est toujours bon mais ne fonctionne pas vraiment avec l'entraînement décentralisé. Cela me fait me demander à quoi ressemble l'outil de visualisation interne chez OpenAI - cela doit être incroyable.




3,04K
Nous avons franchi une étape importante dans le domaine de la formation entièrement décentralisée : pour la première fois, nous avons démontré qu’un grand modèle de langage peut être divisé et entraîné sur des appareils grand public connectés via Internet, sans perte de vitesse ou de performance.

161,08K
Pluralis Research a reposté
Probablement la plus grande semaine de la formation décentralisée à ce jour, après l’ICLR et d’autres sur le point de sortir. Résumé de la situation actuelle :
1. La post-formation RL décentralisée fonctionne clairement. @gensynai les dernières nouveautés avec d’excellents résultats ici. Ce processus prend un modèle de base solide, en donne des copies aux participants qui génèrent des traces de raisonnement qui sont ensuite collectées et utilisées pour améliorer le modèle de base. Cela dépend évidemment de la disponibilité des modèles de base / poids ouverts, et est nettement moins cher que le pré-entraînement. Les nœuds n’ont besoin que d’effectuer des inférences. L’inconvénient est qu’il y a de plus en plus de preuves (et c’est très intuitif) qu’il n’est pas possible de se frayer un chemin à travers un mauvais modèle de base. Vous conservez donc une dépendance. Nous devons attendre les résultats de ces essais, mais la réalité est que cela va fonctionner d’une manière ou d’une autre parce que le processus est si trivialement parallisable.
2. Le pré-entraînement Data-Parallel (DP) semble bon. Les deux @NousResearch et @PrimeIntellect ont déjà des résultats ici à l’échelle 10B tailles de modèles. Il sera très simple (mais coûteux pour les opérateurs de nœuds) d’étendre cela au cas 100B. En effet, dans DP, chaque nœud conserve une copie complète du modèle, vous avez donc besoin par exemple de 8xh100s pour vous entraîner à la taille 10b ; Vous ne pouvez pas utiliser de petites cartes. Vous pouvez donc simplement étendre cette technique en augmentant la taille des nœuds et en effectuant une formation collaborative entre centres de données (c’est-à-dire que chaque nœud est composé d’environ 100 H100, et vous entraînez >modèle 100b). Vous avez également le problème que tout le monde voit une copie complète du modèle, donc on ne sait pas comment monétiser (l’apprentissage par protocole résout ce problème).
3. Model-Parallel (où le modèle lui-même est divisé en nœuds - pensez à 1000 Macbooks géographiquement séparés entraînant un modèle de param 100b, où chaque appareil n’a qu’une petite partie du modèle total) a commencé à montrer les premiers indices d’être possible. Nous (@PluralisHQ) publié l’article « Beyond Top k » qui compresse les communications entre les nœuds à plus de 90 %, ainsi que deux autres travaux qui montrent que vous pouvez utiliser des dispositifs hétérogènes dans une configuration PP (Pipeline Parallel). Nous avons également fait accepter notre méthode Nesterov pour la PP dans ICML2025, ce qui, pour autant que je sache, est le premier article sur la formation décentralisée accepté dans une conférence majeure sur l’IA depuis l’article original de SWARM, et devrait aider à catalyser l’intérêt des cercles d’IA grand public.
Est-ce que le modèle décentralisé est résolu en parallèle → NON. La bande passante de communication est tellement pire que celle d’un centre de données, que même 90 % ne suffisent pas. Nous devons atteindre une compression d’environ 300 fois pour atteindre la parité avec un entraînement centralisé. Il reste une énorme question à savoir si cela est même possible - vous détruisez une grande partie du signal d’entraînement en faisant cela. C’est l’objectif de Pluralis.
Cependant, que se passe-t-il si cela fonctionne ? Pour la première fois, vous pouvez faire une véritable préformation collaborative. Il n’y a aucune dépendance à l’égard de deepseek ou de Meta. Les individus peuvent combiner le calcul pour créer des modèles à cette échelle, à partir de zéro. Nous obtenons ici une véritable innovation communautaire d’une manière qui n’a jamais existé jusqu’à présent. Une post-formation décentralisée basée sur l’apprentissage par renforcement peut ensuite être utilisée pour rendre ces modèles encore meilleurs.
La réalité est que nous n’en sommes qu’aux premiers jours de quelque chose d’extrêmement important qui se produit ici. Ce sera un domaine majeur. Les entreprises ci-dessus tournent à plein régime, un tas d’autres sont sur le point de sortir sous peu, et je ne m’attends pas à ce que cela ralentisse du tout jusqu’à ce que ce qui se passe se produise. Et si vous lisez ceci, vous êtes en avance.
14,21K
Pluralis Research a reposté
C’est incroyable de voir l’article sur le parallélisme du pipeline de Pluralis accepté par l’ICML.
L’ICML est l’une des conférences sur l’IA les plus importantes et les plus réputées au monde, qui aura une représentation majeure de la DeAI cette année.
L’été DeAI sera épique.
3,92K
1/2 Nous avons étendu notre travail précédent dans le régime de données parallèles (où chaque nœud a une copie complète du modèle) au régime de modèle-parallèle. Il s’agit du premier travail, en dehors de l’article original sur l’essaim, traitant du scénario où le modèle lui-même est fragmenté sur les appareils.
1,96K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables