Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por fin, el último artículo de mi doctorado
🧮 Aprender a razonar en 13 parámetros 🧮
desarrollamos TinyLoRA, un nuevo método de tiempo de tiro (ft). con TinyLoRA + RL, los modelos aprenden bien con decenas o cientos de parámetros
ejemplo: usamos solo 13 parámetros para entrenar el modelo Qwen 7B del 76 al 91% en GSM8K 🤯

hay un artículo que me gusta de 2018 llamado Playing Atari with Six Neurons. dio precedente a que RL puede aprender algunos "programas" que requieren muy pocos bytes
sin embargo, el ajuste más fino que la gente suele hacer hoy en día es LoRA con rango=1, que sigue usando millones de parámetros... 🤔
la forma en que llegamos aquí fue pensando en qué tamaño de "programa" podría enseñar a LLaMA o Qwen a razonar. 3 millones de parámetros en bf16 consumen 6 MB. ¿Esto parece demasiado grande?
nuestra teoría: si cada episodio de RL transmite aproximadamente 1 bit, deberíamos poder codificar, por ejemplo, GSM8K con muchos menos datos...

y ten en cuenta que esto *no* funciona con SFT. básicamente, para minimizar completamente la pérdida con SFT, tienes que memorizar todos los tokens de salida con un 100% de confianza. Esto requiere muchos más bits
y, en consecuencia, necesitamos tamaños de actualización mayores para los modelos SFT para tener un buen rendimiento:
(más sobre esto en la Sección 3)

esto no es solo un artefacto de GSM8K ni de ningún modelo específico
en todos los conjuntos de datos que probamos (MATH, AIME, Minerva...), conseguimos recuperar el >90% de las mejoras de rendimiento entrenando cientos de parámetros (excepto AMC, que a veces requiere miles)

un detalle de ingeniería divertido fue que es realmente difícil hacer RL con diferentes formas de LoRA, ya que el RL de LLM requiere inferencia rápida, lo que requiere implementación a nivel de hardware (kernels)
Solucioné esto simplemente fusionando los pesos de LoRA en cada desplegamiento y luego descombinándolos para entrenar. En realidad no es tan lento. Hay más detalles en el artículo y pronto compartiré el código
123
Populares
Ranking
Favoritas
