Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artículo de NVIDIA me ha destrozado la cabeza.
Todo el mundo sigue hablando de escalar transformadores con clústeres más grandes y optimizadores más inteligentes... mientras tanto, NVIDIA y Oxford acaban de demostrar que se pueden entrenar modelos de mil millones de parámetros usando estrategias evolutivas, un método que la mayoría de la gente consideraba antiguo.
El truco es un nuevo sistema llamado EGGROLL, que invierte todo el modelo de costes de ES.
Normalmente, ES muere a escala porque tienes que generar matrices de perturbación de rango completo para cada miembro de la población. Para modelos de mil millones de parámetros, eso significa un movimiento de memoria insano y un cálculo ridículo.
Estos lo solucionaron generando perturbaciones de bajo rango usando dos matrices delgadas A y B y dejando que ABT actuara como actualización.
La media de la población entonces se comporta como una actualización completa de rango sin pagar el precio de rango completo.
¿El resultado?
Ejecutan estrategias evolutivas con poblaciones de cientos de miles que varios trabajos anteriores no pudieron alcanzar porque todo se derretía bajo la presión de la memoria. Ahora bien, el rendimiento es básicamente tan rápido como la inferencia por lotes.
Eso es inaudito para ningún método sin degradado.
Las cuentas también cuadran.
La aproximación de rango bajo converge al gradiente ES verdadero a una tasa de 1/r, por lo que empujar el rango recrea el comportamiento completo de ES sin la explosión computacional.
Pero los experimentos son donde se vuelve una locura.
→ Preentrenan los LMs recurrentes desde cero usando únicamente tipos de datos enteros. Sin gradientes. Sin backspin. Totalmente estable incluso en hiperescala.
→ Igualan métodos de nivel GRPO en benchmarks de razonamiento LLM.
Eso significa que ES puede competir con los enfoques modernos de RL-for-razonamiento en tareas reales.
→ ES de repente se vuelve viable para sistemas masivos, discretos, híbridos y no diferenciables, justo en los lugares donde el backprop resulta doloroso o imposible.
...

Populares
Ranking
Favoritas

