Meta slapp nettopp denne artikkelen som søler den hemmelige sausen til forsterkende læring (RL) på LLM-er. Den legger ut en RL-oppskrift, bruker 400 000 GPU-timer og setter en skaleringslov for ytelse med mer databehandling i RL, som de klassiske skaleringslovene før trening. Må lese for AI-nerder.
Kilde:
95,06K