Lanzado el entrenador completamente asíncrono en la mainnet de @grail_ai, entrenando un modelo de 7B 🚀 ¡El entrenamiento ahora se ejecuta continuamente desde un buffer de reproducción! Sin esperar en la comunicación. Esto desbloqueó más de 2k de contexto y nos permitió escalar de modelos de 1.5B → 7B e incluso más grandes más adelante.