Tocmai am scris un blog despre cum am creat prima versiune a Grail (grail-v0), un sistem complet deschis și descentralizat de antrenament RL pentru LLM-uri. Unul dintre primele sale tipuri. Totul este public: baza de cod, bucla de antrenament, curbele de antrenament live, stimulentele, implementările de implementare. 🧵 1/4