Ho appena scritto un blog su come abbiamo creato la prima versione di grail (grail-v0), un sistema di addestramento RL completamente aperto e decentralizzato per LLM. Uno dei suoi primi tipi. Tutto è pubblico: il codice sorgente, il ciclo di addestramento, le curve di addestramento in tempo reale, gli incentivi, i rollouts. 🧵 1/4