Ich habe gerade einen Blog darüber geschrieben, wie wir die erste Version von grail (grail-v0) erstellt haben, ein vollständig offenes, dezentrales RL-Trainingssystem für LLMs. Eines seiner ersten seiner Art. Alles ist öffentlich: der Code, die Trainingsschleife, die Live-Trainingskurven, die Anreize, die Rollouts. 🧵 1/4