Jeg skrev nettopp et blogginnlegg om hvordan vi laget den første versjonen av grail (grail-v0), et helt åpent, desentralisert RL-treningssystem for LLM-er. En av de første typene. Alt er offentlig: kodebasen, treningssløyfen, de levende treningskurvene, insentivene, utrullingene. 🧵 1/4