Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
por fim, o trabalho final do meu doutoramento
🧮 Aprendendo a Raciocinar em 13 Parâmetros 🧮
desenvolvemos o TinyLoRA, um novo método de ft. com TinyLoRA + RL, os modelos aprendem bem com dezenas ou centenas de parâmetros
exemplo: usamos apenas 13 parâmetros para treinar o modelo Qwen de 7B de 76 a 91% no GSM8K 🤯

há um artigo que gosto de 2018 chamado Jogando Atari com Seis Neurônios. deu precedência ao fato de que o RL pode aprender alguns "programas" que ocupam muito poucos bytes
o menor ajuste fino que as pessoas costumam fazer hoje em dia é o LoRA com rank=1, que ainda usa milhões de parâmetros... 🤔
a forma como chegámos aqui foi pensar sobre que tamanho de "programa" poderia ensinar LLaMA ou Qwen a raciocinar. 3 milhões de parâmetros em bf16 ocupam 6 MB. isso parece demasiado grande?
a nossa teoria: se cada episódio de RL transmite aproximadamente 1 bit, deveríamos ser capazes de codificar, por exemplo, GSM8K em muito menos dados...

e note que isto *não* funciona com SFT. basicamente, para minimizar totalmente a perda com SFT, você tem que memorizar todos os tokens de saída com 100% de confiança. isso requer muitos mais bits
e, consequentemente, precisamos de tamanhos de atualização maiores para modelos SFT para um bom desempenho:
(mais sobre isso na Seção 3)

isto não é apenas um artefato do GSM8K ou de qualquer modelo específico
em todos os conjuntos de dados que tentámos (MATH, AIME, Minerva...), conseguimos recuperar >90% dos ganhos de desempenho ao treinar centenas de parâmetros (exceto AMC, que às vezes requer milhares)

um detalhe divertido de engenharia foi que é realmente difícil fazer RL com diferentes formas de LoRA, uma vez que o RL de LLM requer inferência rápida, o que exige implementação a nível de hardware (kernels)
consegui contornar isso apenas fundindo os pesos de LoRA em cada rollout e depois desfazendo a fusão para o treinamento. na verdade, não é tão lento assim. há mais detalhes no artigo e em breve compartilharei o código.
94
Top
Classificação
Favoritos
