DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Pluralis Research

Aprendizaje de protocolo

Los resultados de NeurIPS ya están disponibles; Pluralis tiene tres artículos aceptados. El primero es el resultado de investigación central que actualmente está impulsando nuestra ejecución de preentrenamiento abierto de 7.5B en node0. Los otros dos son también resultados importantes que integraremos en ejecuciones posteriores. Esto se ha realizado con un pequeño equipo de <10 personas, mientras se construía node0. 1) Redes de Subespacios: Escalando el Entrenamiento Descentralizado con Paralelismo de Modelo Eficiente en Comunicación: Escalar modelos ha llevado a avances significativos en el aprendizaje profundo, pero entrenar estos modelos en entornos descentralizados sigue siendo un desafío debido a los cuellos de botella en la comunicación. Si bien las técnicas de compresión existentes son efectivas en paralelo de datos, no se extienden al paralelismo de modelos. A diferencia del entrenamiento en paralelo de datos, donde se intercambian los gradientes de peso, el paralelismo de modelos requiere comprimir las activaciones y los gradientes de activación a medida que se propagan a través de las capas, acumulando errores de compresión. Proponemos un nuevo algoritmo de compresión que comprime tanto los pasos hacia adelante como hacia atrás, permitiendo hasta un 99% de compresión sin degradación de la convergencia con un sobrecosto de memoria/cálculo negligible. Al aprovechar una estructura recursiva en las redes transformadoras, predefinimos un subespacio de baja dimensión para confinar las activaciones y gradientes, permitiendo una reconstrucción completa en capas posteriores. Nuestro método logra hasta 100x de mejora en la eficiencia de comunicación y permite entrenar modelos de escala de mil millones de parámetros en GPUs de gama baja conectadas a través de velocidades de internet de grado consumidor tan bajas como 80Mbps, igualando la convergencia de sistemas centralizados en centros de datos con conexiones de 100Gbps con paralelismo de modelos. 2) Mezclas de Subespacios para Entrenamiento Paralelo de Contexto Eficiente en Ancho de Banda: El preentrenamiento de modelos de lenguaje con ventanas de contexto extendidas mejora su capacidad para aprovechar información rica durante la generación. Los métodos existentes dividen las secuencias de entrada en fragmentos, las transmiten a través de múltiples dispositivos y calculan la atención bloque por bloque, lo que incurre en un significativo sobrecosto de comunicación. Si bien son viables en clústeres de alta velocidad, estos métodos son imprácticos para el entrenamiento descentralizado a través de conexiones de bajo ancho de banda. Proponemos un método de compresión para el paralelismo de contexto eficiente en comunicación en entornos descentralizados, logrando una notable tasa de compresión de más del 95% con un sobrecosto negligible y sin pérdida en la convergencia. Nuestra clave es explotar la estructura intrínseca de bajo rango de las salidas de activación al restringirlas dinámicamente a mezclas aprendidas de subespacios a través de reparametrizaciones eficientes. Demostramos la escalabilidad de modelos descentralizados de mil millones de parámetros a longitudes de contexto que superan los 100K tokens en redes tan lentas como 300Mbps, igualando la velocidad de convergencia en tiempo real de modelos centralizados en interconexiones de 100Gbps. 3) Modelos de Protocolo No Extraíbles: Entrenamiento Colaborativo e Inferencia sin Materialización de Pesos: Consideramos un entorno de entrenamiento descentralizado en el que los participantes entrenan y sirven colaborativamente una gran red neuronal, y donde cada participante solo procesa un subconjunto del modelo. En este entorno, exploramos la posibilidad de pesos no materializables, donde un conjunto completo de pesos nunca está disponible para ningún participante. Introducimos Modelos de Protocolo No Extraíbles (UPMs): un marco de entrenamiento e inferencia que aprovecha la configuración de modelo fragmentado para asegurar que los fragmentos del modelo (es decir, subconjuntos) mantenidos por los participantes sean incompatibles en diferentes pasos de tiempo. Los UPMs inyectan periódicamente transformaciones aleatorias, invertibles y variables en el tiempo en los límites de los participantes; preservando la función general de la red pero haciendo que los ensamblajes cruzados en el tiempo sean incoherentes. En Qwen-2.5-0.5B y Llama-3.2-1B, 10,000 transformaciones dejan la perplejidad FP 32 sin cambios (PPL deriva de Jensen–Shannon). Aplicar una transformación cada 30s añade un 3% de latencia, un 0.1% de ancho de banda y un 10% de sobrecosto de memoria GPU en inferencia, mientras que el sobrecosto de entrenamiento cae al 1.6% de tiempo y < 1% de memoria. Consideramos varios ataques, mostrando que los requisitos de ataques directos son imprácticos y fáciles de defender, y que el ajuste fino basado en gradientes de particiones cosidas consume los tokens requeridos para entrenar desde cero. Al permitir que los modelos sean entrenados colaborativamente pero no extraídos, los UPMs hacen que sea práctico incorporar mecanismos de incentivos programáticos en el entrenamiento descentralizado impulsado por la comunidad.

Parte superior

Clasificación

Favoritos