Interessant å se Bytedance jobbe med å løse 0-gradient-problemet. Ideen deres er å løse det gjennom et adaptivt databudsjett; Vi nærmer oss det fra et belønningsperspektiv. GRPO-trening bruker vanligvis små, nøye kuraterte datasett, dataene må være veldig vanskelige for å gi rike læringssignaler og muliggjøre oppdagelse. Trening på enklere data vil bare skjerpe det modellen allerede har sett i SFT/pre-training!