Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Pluralis Research
Aprendizaje de protocolos
Pluralis Research reposteó
Usando hermosos paneles de Grafana para todo internamente, mucho mejor que Tensorboard. Wandb sigue siendo bueno, pero realmente no funciona con entrenamiento descentralizado. Me hace preguntarme cómo es el utillaje de visibilidad interno en openai, debe ser increíble.




3.04K
Pluralis Research reposteó
Probablemente la semana más grande en Capacitación Descentralizada hasta la fecha después de ICLR y más a punto de salir. Resumen de la situación actual:
1. La post-formación descentralizada de RL está funcionando claramente. @gensynai lo último con excelentes resultados aquí. Este proceso toma un modelo base fuerte, da copias a los participantes que generan trazas de razonamiento que luego se recopilan y utilizan para mejorar el modelo base. Obviamente, esto depende de que los modelos base estén disponibles/de peso abierto, y es significativamente más barato que el preentrenamiento. Los nodos solo necesitan hacer inferencias. El inconveniente es que cada vez hay más pruebas (y son muy intuitivas) de que no es posible superar un mal modelo base. Por lo tanto, conserva una dependencia. Tenemos que esperar los resultados de estas carreras, pero la realidad es que esto va a funcionar de una forma u otra porque el proceso es tan trivialmente paralizable.
2. El preentrenamiento de datos paralelos (DP) se ve bien. Tanto @NousResearch como @PrimeIntellect ya tienen resultados aquí en tamaños de modelos a escala 10B. Será muy sencillo (pero costoso para los operadores de nodos) extender esto al caso 100B. Esto se debe a que en DP cada nodo mantiene una copia completa del modelo, por lo que necesita, por ejemplo, 8xh100s para entrenar en el tamaño 10b; No puedes usar cartas pequeñas. Por lo tanto, puede ampliar esta técnica mediante el escalado vertical de los nodos y el entrenamiento colaborativo entre centros de datos (es decir, cada nodo se compone de 100 H100 más o menos, y se entrena >modelo 100b). También tiene el problema de que todo el mundo ve una copia completa del modelo, por lo que no está claro cómo monetizar (Protocol Learning resuelve esto).
3. Model-Parallel (donde el modelo en sí se divide en nodos: piense en 1000 Macbooks geográficamente separados que entrenan un modelo de 100b param, donde cada dispositivo solo tiene una pequeña parte del modelo total) comenzó a mostrar los primeros indicios de ser posible. Nosotros (@PluralisHQ) publicamos el artículo 'Beyond Top k' que comprime las comunicaciones entre nodos en más del 90%, así como otros dos trabajos que muestran que se pueden usar dispositivos heterogéneos en una configuración de Pipeline Parallel (PP). También conseguimos que nuestro método Nesterov para PP fuera aceptado en ICML2025, que hasta donde yo sé es el primer documento sobre formación descentralizada aceptado en una conferencia importante de IA desde el documento original de SWARM, y debería ayudar a catalizar el interés de los círculos principales de IA.
¿Se resuelve el modelo descentralizado-paralelo → NO. El ancho de banda de comunicación es mucho peor en comparación con un centro de datos, que incluso el 90% no es suficiente. Necesitamos llegar a una compresión de alrededor de 300x para alcanzar la paridad con el entrenamiento centralizado. Queda una gran pregunta sobre si esto es posible: al hacer esto, estás destruyendo gran parte de la señal de entrenamiento. Este es el enfoque de Pluralis.
Sin embargo, ¿qué sucede si esto funciona? Por primera vez, se puede hacer un preentrenamiento colaborativo real. No hay dependencia de deepseek o Meta. Las personas pueden combinar la computación para crear modelos a esta escala, desde cero. Aquí se produce una innovación real impulsada por la comunidad de una manera que nunca ha existido hasta la fecha. A continuación, se puede utilizar el post-training descentralizado basado en RL para mejorar aún más estos modelos.
La realidad es que estamos en los primeros días de que ocurra algo enormemente significativo aquí. Este va a ser un campo importante. Las compañías anteriores están disparando a toda máquina, un montón más está a punto de salir de la puerta en breve, y no espero que esto se ralentice en absoluto desde ahora hasta que suceda lo que suceda. Y si estás leyendo esto, llegas temprano.
14.21K
1/2 Extendimos nuestro trabajo previo en el régimen de datos paralelos (donde cada nodo tiene una copia completa del modelo) al régimen de modelo paralelo. Este es el primer trabajo, aparte del documento original de enjambre, que trata sobre el escenario en el que el modelo en sí se fragmenta sobre los dispositivos.
1.96K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas