Je viens d'écrire un blog sur la façon dont nous avons créé la première version de grail (grail-v0), un système d'entraînement RL entièrement ouvert et décentralisé pour les LLM. L'un de ses premiers types. Tout est public : la base de code, la boucle d'entraînement, les courbes d'entraînement en direct, les incitations, les déploiements. 🧵 1/4