DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Alexander Long

Fundador @PluralisHQ | Doutorado em ML Aprendizado de protocolo: modelo paralelo de vários participantes e baixa largura de banda

Isso é meio louco

Os resultados do NeurIPS foram divulgados; Pluralis tem três artigos aceitos. O primeiro é o resultado principal da pesquisa que atualmente está alimentando nosso nó de execução de pré-treinamento aberto de 7,5 bilhões0. Os dois segundos também são resultados importantes que integraremos nas execuções subsequentes. Isso é feito com uma pequena equipe de <10 pessoas, feita durante a construção do node0. 1) Redes Subespaciais: Escalonamento de Treinamento Descentralizado com Paralelismo de Modelo Eficiente em Comunicação: O dimensionamento de modelos levou a avanços significativos no aprendizado profundo, mas o treinamento desses modelos em ambientes descentralizados continua sendo um desafio devido a gargalos de comunicação. Embora as técnicas de compactação existentes sejam eficazes em paralelo de dados, elas não se estendem ao paralelismo de modelos. Ao contrário do treinamento paralelo de dados, em que os gradientes de peso são trocados, o paralelo de modelo requer a compactação de ativações e gradientes de ativação à medida que se propagam pelas camadas, acumulando erros de compactação. Propomos um novo algoritmo de compactação que comprime as passagens para frente e para trás, permitindo até 99% de compactação sem degradação de convergência com sobrecarga insignificante de memória/computação. Ao alavancar uma estrutura recursiva em redes de transformadores, predefinimos um subespaço de baixa dimensão para confinar as ativações e gradientes, permitindo a reconstrução completa nas camadas subsequentes. Nosso método alcança uma melhoria de até 100 vezes na eficiência da comunicação e permite o treinamento de modelos em escala de bilhões de parâmetros em GPUs de baixo custo conectadas por meio de velocidades de internet de nível de consumidor tão baixas quanto 80 Mbps, combinando a convergência de sistemas de datacenter centralizados com conexões de 100 Gbps com modelo paralelo. 2) Misturas de subespaços para treinamento paralelo de contexto eficiente em largura de banda: Modelos de linguagem de pré-treinamento com janelas de contexto estendidas aumentam sua capacidade de aproveitar informações ricas durante a geração. Os métodos existentes dividem as sequências de entrada em partes, transmitem-nas em vários dispositivos e calculam a atenção bloco por bloco, o que incorre em uma sobrecarga de comunicação significativa. Embora viáveis em clusters de alta velocidade, esses métodos são impraticáveis para treinamento descentralizado em conexões de baixa largura de banda. Propomos um método de compressão para paralelismo de contexto eficiente em comunicação em ambientes descentralizados, alcançando uma taxa de compressão notável de mais de 95% com sobrecarga insignificante e sem perda de convergência. Nosso principal insight é explorar a estrutura intrínseca de baixa classificação das saídas de ativação, restringindo-as dinamicamente a misturas aprendidas de subespaços por meio de reparametrizações eficientes. Demonstramos o dimensionamento de modelos descentralizados de bilhões de parâmetros para comprimentos de contexto superiores a 100 mil tokens em redes tão lentas quanto 300 Mbps, correspondendo à velocidade de convergência do relógio de parede de modelos centralizados em interconexões de 100 Gbps. 3) Modelos de Protocolo Não Extraíveis: Treinamento Colaborativo e Inferência sem Materialização de Peso: Consideramos uma configuração de treinamento descentralizada na qual os participantes treinam e servem colaborativamente uma grande rede neural e onde cada participante processa apenas um subconjunto do modelo. Nesta configuração, exploramos a possibilidade de pesos não materializáveis, onde um conjunto de pesos completos nunca está disponível para nenhum participante. Apresentamos os Modelos de Protocolo Não Extraíveis (UPMs): uma estrutura de treinamento e inferência que aproveita a configuração do modelo fragmentado para garantir que os fragmentos do modelo (ou seja, subconjuntos) mantidos pelos participantes sejam incompatíveis em diferentes etapas de tempo. Os UPMs injetam periodicamente transformações invertíveis, aleatórias e variáveis no tempo nos limites dos participantes; preservando a função de rede geral, mas tornando os assemblies de tempo cruzado incoerentes. Em Qwen-2.5-0.5B e Llama-3.2-1B, 10.000 transformadas deixam a perplexidade do FP 32 inalterada (PPL Jensen-Shannon deriva). A aplicação de uma transformação a cada 30 segundos adiciona 3% de latência, 0,1% de largura de banda e 10% de sobrecarga de memória da GPU na inferência, enquanto a sobrecarga de treinamento cai para 1,6% do tempo e < 1% de memória. Consideramos vários ataques, mostrando que os requisitos de ataques diretos são impraticáveis e fáceis de se defender, e que o ajuste fino baseado em gradiente de partições costuradas consome os tokens necessários para treinar do zero. Ao permitir que os modelos sejam treinados de forma colaborativa, mas não extraídos, os UPMs tornam prático incorporar mecanismos de incentivo programático no treinamento descentralizado voltado para a comunidade.

Melhores

Classificação

Favoritos