Ik heb zojuist een blog geschreven over hoe we de eerste versie van grail (grail-v0) hebben gemaakt, een volledig open, gedecentraliseerd RL-trainingssysteem voor LLM's. Een van zijn eerste soorten. Alles is openbaar: de codebase, de trainingslus, de live trainingscurves, de prikkels, de rollouts. 🧵 1/4