Lancé el entrenador totalmente asincrónico en @grail_ai mainnet, entrenando un modelo 🚀 7B ¡El entrenamiento ahora se realiza continuamente desde un buffer de repetición! No esperes a la comunicación. Esto desbloqueó el contexto de 2k+ y nos permitió escalar desde modelos de 1,5 mil millones → 7 mil millones y aún más grandes más adelante.