DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

enfin, le document final de mon doctorat 🧮 Apprendre à raisonner en 13 paramètres 🧮 nous développons TinyLoRA, une nouvelle méthode de ft. avec TinyLoRA + RL, les modèles apprennent bien avec des dizaines ou des centaines de paramètres exemple : nous utilisons seulement 13 paramètres pour entraîner le modèle Qwen 7B de 76 à 91 % sur GSM8K 🤯

il y a un article que j'aime de 2018 intitulé Playing Atari with Six Neurons. il a établi un précédent selon lequel le RL peut apprendre certains "programmes" qui prennent très peu d'octets pourtant, le plus petit ajustement que les gens font généralement de nos jours est LoRA avec un rang=1, qui utilise tout de même des millions de paramètres... 🤔

la façon dont nous sommes arrivés ici était de réfléchir à la taille d'un "programme" qui pourrait apprendre à LLaMA ou Qwen à raisonner. 3 millions de paramètres en bf16 prennent 6 Mo. Cela semble trop gros ? notre théorie : si chaque épisode RL transmet environ 1 bit, nous devrions être capables d'encoder par exemple GSM8K avec beaucoup moins de données...

et notez que cela *ne fonctionne pas* avec SFT. En gros, pour minimiser complètement la perte avec SFT, vous devez mémoriser tous les tokens de sortie avec 100 % de confiance. Cela nécessite beaucoup plus de bits et par conséquent, nous avons besoin de tailles de mise à jour plus grandes pour les modèles SFT pour de bonnes performances : (plus d'informations à ce sujet dans la Section 3)

ce n'est pas juste un artefact de GSM8K ou d'un modèle spécifique sur tous les ensembles de données que nous avons essayés (MATH, AIME, Minerva...), nous sommes capables de récupérer plus de 90 % des gains de performance en entraînant des centaines de paramètres (sauf AMC, qui nécessite parfois des milliers)

un détail d'ingénierie amusant était qu'il est vraiment difficile de faire du RL avec différentes formes de LoRA, car le RL des LLM nécessite une inférence rapide, ce qui nécessite une implémentation au niveau matériel (noyaux) j'ai contourné cela en fusionnant simplement les poids de LoRA à chaque déploiement, puis en les dé-fusionnant pour l'entraînement. ce n'est en fait pas si lent. il y a plus de détails dans le document et je partagerai le code bientôt.

Meilleurs

Classement

Favoris