Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Alexander Long

Fundador @PluralisHQ | Doutoramento ML Aprendizagem de protocolo: modelo paralelo multiparticipante e de baixa largura de banda

Isto é meio louco

Os resultados do NeurIPS foram divulgados; a Pluralis teve três artigos aceites. O primeiro é o resultado da pesquisa central que atualmente está a impulsionar a nossa execução de pré-treinamento aberto de 7,5B no node0. Os outros dois também são resultados importantes que iremos integrar em execuções subsequentes. Isto foi feito com uma pequena equipa de <10 pessoas, enquanto construíamos o node0. 1) Redes de Subespaço: Escalando o Treinamento Descentralizado com Paralelismo de Modelo Eficiente em Comunicação: Escalar modelos levou a avanços significativos em aprendizagem profunda, mas treinar esses modelos em configurações descentralizadas continua a ser um desafio devido a gargalos de comunicação. Embora as técnicas de compressão existentes sejam eficazes em paralelo de dados, elas não se estendem ao paralelismo de modelo. Ao contrário do treinamento em paralelo de dados, onde os gradientes de peso são trocados, o paralelismo de modelo requer a compressão de ativações e gradientes de ativações à medida que se propagam através das camadas, acumulando erros de compressão. Propomos um novo algoritmo de compressão que comprime tanto as passagens para a frente quanto para trás, permitindo até 99% de compressão sem degradação da convergência com sobrecarga de memória/cálculo negligenciável. Ao aproveitar uma estrutura recursiva em redes transformer, pré-definimos um subespaço de baixa dimensão para confinar as ativações e gradientes, permitindo a reconstrução total em camadas subsequentes. O nosso método alcança até 100x de melhoria na eficiência de comunicação e permite o treinamento de modelos de escala de bilhões de parâmetros em GPUs de baixo custo conectadas via velocidades de internet de consumo tão baixas quanto 80Mbps, igualando a convergência de sistemas de datacenter centralizados com conexões de 100Gbps com paralelismo de modelo. 2) Misturas de Subespaços para Treinamento Paralelo de Contexto Eficiente em Largura de Banda: O pré-treinamento de modelos de linguagem com janelas de contexto ampliadas melhora a sua capacidade de aproveitar informações ricas durante a geração. Os métodos existentes dividem sequências de entrada em blocos, transmitem-nas através de vários dispositivos e computam atenção bloco a bloco, o que acarreta uma sobrecarga significativa de comunicação. Embora viáveis em clusters de alta velocidade, esses métodos são impraticáveis para treinamento descentralizado sobre conexões de baixa largura de banda. Propomos um método de compressão para paralelismo de contexto eficiente em comunicação em configurações descentralizadas, alcançando uma taxa de compressão notável de mais de 95% com sobrecarga negligenciável e sem perda na convergência. A nossa principal percepção é explorar a estrutura intrinsecamente de baixa classificação das saídas de ativação, restringindo-as dinamicamente a misturas aprendidas de subespaços através de reparametrizações eficientes. Demonstramos a escalabilidade de modelos descentralizados de bilhões de parâmetros para comprimentos de contexto que excedem 100K tokens em redes tão lentas quanto 300Mbps, igualando a velocidade de convergência em tempo real de modelos centralizados em interconexões de 100Gbps. 3) Modelos de Protocolo Não Extraíveis: Treinamento Colaborativo e Inferência sem Materialização de Pesos: Consideramos uma configuração de treinamento descentralizado na qual os participantes treinam e servem colaborativamente uma grande rede neural, e onde cada participante processa apenas um subconjunto do modelo. Nesta configuração, exploramos a possibilidade de pesos não materializáveis, onde um conjunto completo de pesos nunca está disponível para qualquer participante. Introduzimos Modelos de Protocolo Não Extraíveis (UPMs): uma estrutura de treinamento e inferência que aproveita a configuração de modelo fragmentado para garantir que os fragmentos do modelo (ou seja, subconjuntos) mantidos pelos participantes sejam incompatíveis em diferentes etapas de tempo. Os UPMs injetam periodicamente transformações invertíveis, aleatórias e variáveis no tempo nas fronteiras dos participantes; preservando a função geral da rede, mas tornando as montagens entre tempos incoerentes. Em Qwen-2.5-0.5B e Llama-3.2-1B, 10 000 transformações mantêm a perplexidade FP 32 inalterada (PPL desvio de Jensen–Shannon). Aplicar uma transformação a cada 30s adiciona 3% de latência, 0.1% de largura de banda e 10% de sobrecarga de memória GPU na inferência, enquanto a sobrecarga de treinamento cai para 1.6% de tempo e < 1% de memória. Consideramos vários ataques, mostrando que os requisitos de ataques diretos são impraticáveis e fáceis de defender, e que o ajuste fino baseado em gradientes de partes costuradas consome os tokens necessários para treinar do zero. Ao permitir que modelos sejam treinados colaborativamente, mas não extraídos, os UPMs tornam prático incorporar mecanismos de incentivo programáticos em treinamento descentralizado orientado pela comunidade.

Top

Classificação

Favoritos