Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

por fim, o trabalho final do meu doutoramento 🧮 Aprendendo a Raciocinar em 13 Parâmetros 🧮 desenvolvemos o TinyLoRA, um novo método de ft. com TinyLoRA + RL, os modelos aprendem bem com dezenas ou centenas de parâmetros exemplo: usamos apenas 13 parâmetros para treinar o modelo Qwen de 7B de 76 a 91% no GSM8K 🤯

há um artigo que gosto de 2018 chamado Jogando Atari com Seis Neurônios. deu precedência ao fato de que o RL pode aprender alguns "programas" que ocupam muito poucos bytes o menor ajuste fino que as pessoas costumam fazer hoje em dia é o LoRA com rank=1, que ainda usa milhões de parâmetros... 🤔

a forma como chegámos aqui foi pensar sobre que tamanho de "programa" poderia ensinar LLaMA ou Qwen a raciocinar. 3 milhões de parâmetros em bf16 ocupam 6 MB. isso parece demasiado grande? a nossa teoria: se cada episódio de RL transmite aproximadamente 1 bit, deveríamos ser capazes de codificar, por exemplo, GSM8K em muito menos dados...

e note que isto *não* funciona com SFT. basicamente, para minimizar totalmente a perda com SFT, você tem que memorizar todos os tokens de saída com 100% de confiança. isso requer muitos mais bits e, consequentemente, precisamos de tamanhos de atualização maiores para modelos SFT para um bom desempenho: (mais sobre isso na Seção 3)

isto não é apenas um artefato do GSM8K ou de qualquer modelo específico em todos os conjuntos de dados que tentámos (MATH, AIME, Minerva...), conseguimos recuperar >90% dos ganhos de desempenho ao treinar centenas de parâmetros (exceto AMC, que às vezes requer milhares)

um detalhe divertido de engenharia foi que é realmente difícil fazer RL com diferentes formas de LoRA, uma vez que o RL de LLM requer inferência rápida, o que exige implementação a nível de hardware (kernels) consegui contornar isso apenas fundindo os pesos de LoRA em cada rollout e depois desfazendo a fusão para o treinamento. na verdade, não é tão lento assim. há mais detalhes no artigo e em breve compartilharei o código.

Top

Classificação

Favoritos