Dobře, nechci být nenávistník, ale papír o škálování RL za 4,2 milionu dolarů se zdá být trochu přehnaný na to, co to je? Trochu samotným papírem, více twitterovými poasters. Z počátečního čtení to vypadá jako další sada vylepšení GRPO, až na to, že tentokrát je trénováno na různých výpočetních rozpočtech, ale - co je zásadní - pouze na relativně malých modelech (Llama 3 8B a Llama 4 Scout) a jedné datové sadě, která je 100% matematická. Hlavní novinkou je, že do grafu odměn namontovali křivku, což je, ehm, skvělé, myslím? Třešničkou na dortu je repozitář kódu, což je jeden soubor soustředěný kolem "z importního curve_fit scipy.optimal". Jsem všemi deseti pro principiálnější výzkum RL, ale těžko můžete vyhlásit zákony škálování v jediném prostředí, když tréninkové envs RL mohou být pravděpodobně rozmanitější než předtrénovací datové sady. Navíc mám stále plíživé podezření (a žádný rozpočet na ověření), že RL na obrovských modelech (>100B?) je kvalitativně odlišná bestie než na malých modelech. Skvělá věc na zákonech škálování LLM je, že pro daný rozpočet můžete odhadnout některé hyperparametry a priori, čímž ušetříte na odhadování hyperparametrů. Těžko se mi zde hledá nějaký analogický vhled. Ale ouha, spotřebovalo to 400 tisíc hodin GPU.