rakensi Claude-koodin taidon, joka tekee RL-koulutusta @PrimeIntellect päästä päähän Annat sille aineiston nimen. Se hoitaa kaiken — palkitsemisfunktion, validoinnin, arvioinnin, hub pushin, koulutuksen lähettämisen Yksi kehote – > juoksutyö. "Rakenna ympäristö cais/mmlu abstraktille algebralle, käytä Qwen/Qwen3-30B-Instruct-2507, 1000 askelta ja lähetä koulutustehtävä." Linkki kommenteissa