Acabo de escribir un blog sobre cómo creamos la primera versión de grail (grail-v0), un sistema de entrenamiento RL completamente abierto y descentralizado para LLMs. Uno de sus primeros tipos. Todo es público: la base de código, el bucle de entrenamiento, las curvas de entrenamiento en vivo, los incentivos, los despliegues. 🧵 1/4